Le cruel dilemme des données de santé à l’ère de l’IA : confidentialité ou équité ?

Ray Richardil y a 3 semaines

4 5 minutes de lecture

L’intelligence artificielle (IA) se répand dans notre vie quotidienne, transformant des domaines tels que le diagnostic médical, les transports, la finance et la sécurité. Elle s’immisce de plus en plus dans nos prises de décision grâce à la collecte et à l’analyse massives de nos données, alimentant les algorithmes décisionnels et nous permettant d’influencer nos choix. Cette omniprésence soulève d’importantes questions éthiques et sociales et pose une question complexe sans réponse facile : faut-il lui faire confiance ?

Avec le projet EQUIHid, nous étudions le potentiel de l’apprentissage fédéré pour rendre les services de santé plus équitables et plus respectueux de la vie privée. L’apprentissage fédéré vous permet d’entraîner un modèle d’intelligence artificielle de manière collaborative. Il s’agit d’aborder une problématique précise, comme l’analyse d’images mammographiques pour la détection précoce d’un cancer ou l’évaluation de la présence de mélanome dans des images de lésions cutanées. Le modèle est formé sur une multitude de données de patients provenant de différents hôpitaux.

Des modèles d’IA qui reproduisent les inégalités

Imaginons un modèle conçu pour diagnostiquer les cancers de la peau, qui les détecte avec une précision remarquable chez les patients à peau claire, mais dont l’efficacité s’effondre lorsqu’il s’agit de peaux plus foncées. Nous disons alors que le modèle n’est pas juste, car il favorise injustement un groupe de patients par rapport à un autre. Comment ce phénomène peut-il se produire ?

La réponse réside dans les données utilisées pour entraîner ce modèle. Si ces données sont biaisées, en surreprésentant un certain type de patients, le modèle fonctionnera mieux avec ce groupe, reproduisant ainsi le biais présent dans les données.

Si la base de données d’entraînement est majoritairement composée d’images de patients à la peau claire, le modèle sera moins exposé aux variations de pigmentation et aux formes de cancer qui apparaissent plus fréquemment sur les peaux foncées. En conséquence, il sera moins efficace pour diagnostiquer le mélanome chez les patients à peau foncée. Les conséquences d’un tel biais peuvent être graves. Un patient souffrant d’un diagnostic erroné ou retardé pourrait voir son pronostic de santé sérieusement compromis. De plus, ces préjugés renforcent les inégalités existantes dans le système de santé, désavantageant les groupes déjà marginalisés.

Ces biais s’intensifient en particulier si les grands volumes de données sur lesquels ces modèles sont formés ne sont pas représentatifs de la population générale. En effet, les données médicales nécessaires à la formation proviennent des consultations hospitalières. Cependant, chaque établissement n’ayant qu’une vision partielle du problème via sa population locale, elle rencontrera des difficultés pour obtenir un modèle équitable. Une solution à ce problème consiste à croiser différentes sources de données pour les enrichir, et ainsi assurer un apprentissage fédéré équitable.

Équité, confidentialité et apprentissage décentralisé

Le principe ? Plusieurs entités communiquent directement entre elles, dans le but de coopérer, sans partager de données potentiellement sensibles et sans avoir à les centraliser sur un site commun géré par un tiers. La souveraineté des données est ici assurée, mais elle ne suffit pas à garantir le respect de la vie privée des patients dans les bases d’apprentissage. En effet, même si leurs données ne sont pas directement exposées, les modèles qu’ils ont formés peuvent révéler des informations sensibles de santé en cas d’attaque informatique.

Revenons à l’exemple précédent d’un modèle de diagnostic du cancer de la peau. Un attaquant pourrait interagir avec le modèle pour tenter de deviner des détails personnels sur un patient donné, y compris la probabilité que ce patient développe cette maladie. Si le modèle répond avec une grande certitude, cela indique que le patient en question était probablement présent dans l’ensemble d’entraînement, révélant sa prédisposition à cette maladie, sans accès direct à ses données médicales.

Le projet EQUIHid vise à concevoir de nouveaux algorithmes d’apprentissage fédéré, à la fois respectueux de la vie privée et capables d’entraîner de manière décentralisée des modèles et non discriminatoires. Outre les développements algorithmiques, une particularité du projet est la volonté d’étudier le problème de manière théorique, afin d’évaluer comment l’équité impacte les performances des modèles. Comment l’équité interagit-elle avec l’apprentissage fédéré ? Comment cela interfère-t-il avec l’apprentissage sensible à la vie privée ? Finalement, comment les trois concepts interagissent-ils ensemble ?

Bien que les domaines de l’équité, de la vie privée et de l’apprentissage fédéré aient été largement étudiés individuellement, leurs interactions sont rarement prises en compte dans la littérature scientifique actuelle. Il faut donc trouver le bon équilibre pour résoudre cette équation à trois paramètres.

Vers une mise en œuvre de modèles plus justes

Des chercheurs de l’Université nationale de Singapour (NUS) ont démontré que l’équité dans les modèles d’apprentissage automatique a un coût en matière de confidentialité. Ce coût n’est pas réparti équitablement : la fuite d’informations liée aux modèles d’apprentissage est nettement plus importante pour les sous-groupes défavorisés, ceux-là mêmes pour qui un apprentissage équitable est crucial. Dans EQUIHid, nous avons démontré que plus les données de formation sont biaisées, plus le coût en matière de confidentialité pour parvenir à l’équité pour ces sous-groupes sera élevé.

Lors de la première phase du projet, nous avons exploré une solution existante, FairFed, qui construit un modèle d’apprentissage à partir de plusieurs modèles plus ou moins justes dans le but de créer un modèle global plus juste que ceux qu’il agrège. Nous avons cherché à étendre cette approche à des contraintes supplémentaires, notamment en matière de confidentialité. Pour ce faire, nous avons introduit une première proposition basée sur des techniques de chiffrement homomorphe et de confidentialité différentielle.

Le cryptage homomorphe est une technique cryptographique qui permet d’effectuer des opérations mathématiques sur des données cryptées, sans avoir besoin de les déchiffrer au préalable. Cela garantit la confidentialité des données pendant le traitement. La confidentialité différentielle, en revanche, est une propriété mathématique des données statistiques qui garantit qu’il est très difficile de déduire si un individu spécifique est présent ou non dans un ensemble de données, même après la publication de statistiques globales.

IA centrée sur l’humain

Notre solution s’appuie sur ces concepts et permet d’entraîner un modèle commun à partir de plusieurs modèles chiffrés provenant d’entités différentes. En les agrégeant, elle pondère leur participation en fonction de leur niveau de fonds propres. Cela garantit une meilleure confidentialité des données d’entraînement et développe un modèle global plus juste.

Lors de la deuxième phase du projet, nous examinerons la question de l’intégrité de l’apprentissage fédéré pour assurer le bon déroulement de l’entraînement du modèle et éviter tout écart dont les conséquences pourraient être importantes, notamment la génération d’un modèle biaisé conduisant à erreurs de diagnostic médical ou fuite massive de données sensibles.

La question de l’IA et de l’équité est devenue une priorité pour les institutions européennes et internationales. La loi sur l’intelligence artificielle (loi IA), adoptée par le Parlement européen en mars 2024, met l’accent sur les droits fondamentaux en matière de protection des données, de dignité humaine et de non-discrimination. Ainsi, mener des recherches sur la détection et la réduction, voire l’élimination, des biais dans les modèles d’apprentissage est un enjeu essentiel pour promouvoir une IA plus équitable et centrée sur l’humain.

Le projet EQUIHid est soutenu par l’Agence Nationale de la Recherche (ANR), qui finance la recherche par projet en France. Sa mission est de soutenir et de promouvoir le développement de la recherche fondamentale et finalisée dans toutes les disciplines, et de renforcer le dialogue entre science et société. Pour en savoir plus, consultez le site de l’ANR.

Ray Richardil y a 3 semaines

4 5 minutes de lecture