SSF-ML-DH - Apprentissage automatique sécurisé, sûr et équitable pour les applications en santé
Keywords : Apprentissage automatique, données de santé massives, confiance, cybersécurité, apprentissage fédéré, confidentialité, robustesse, équité
Responsable projet : Jamal Atif, CNRS, Université Paris-Dauphine-Paris Sciences & Lettres (PSL)
Membres impliqués : Aurélien Bellet Inria Lille, Marc Tommasi, Université de Lille CRIStAL
Équipe : Magnet du Groupe Thématique : DatInG
Résumé :
Le secteur de la santé (public et privé) génère une quantité de données sans pareil provenant de sources aussi diverses que les dossiers médicaux électroniques, les techniques d’imagerie avancées, le séquençage à haut débit, les dispositifs portables et les données de santé publique. L’exploitation de ces données massives par des algorithmes sophistiqués d’apprentissage, automatique a le potentiel de transformer la pratique du soin en permettant le développement de traitements, d’interventions et de politiques publiques plus efficaces et davantage personnalisés, et d’améliorer la prestation des soins de santé et au bout du compte le bien-être de la population. Toutefois, le caractère hautement sensible des données de santé, les risques de cybersécurité, les biais dans les données et le manque de robustesse des algorithmes d’apprentissage automatique constituent autant de facteurs qui empêchent actuellement de tirer pleinement bénéfice des avancées récentes en intelligence artificielle.
Pour s’affranchir de cet état de fait, il est essentiel de surmonter les défis éthiques et juridiques, de sécurité et de robustesse. Ce projet vise à développer de nouveaux algorithmes d’apprentissage automatique qui prennent en compte les caractéristiques multi-échelles et hétérogènes des données de santé, tout en garantissant la confidentialité, la robustesse contre les attaques adverses et les changements de dynamiques des données et modèles, et l’équité pour les populations sous-représentées. En s’attaquant à ces obstacles, nous espérons libérer les verrous qui freinent le déploiement de solutions innovantes en santé numérique.
Plus précisément, le projet se concentrera sur les défis suivants : (i) l’apprentissage respectueux de la vie privée en s’appuyant sur les techniques de confidentialité différentielle et de chiffrement homomorphe ; (ii) l’apprentissage fédéré en établissant des compromis entre précision et confidentialité ; (iii) la robustesse aux attaques adverses et changements de dynamiques des données et des modèles ; (iv) le "désapprentissage" automatique pour implémenter le droit à l’oubli.
Le projet réunit un consortium inédit composé de spécialistes de l’apprentissage automatique, de la cybersécurité, des statistiques, et des applications médicales. En outre, le projet est positionné entre deux PEPR (Cybersécurité et Santé numérique), ce qui lui confère un caractère particulier de diffusion des connaissances et des pratiques entre des communautés de recherche qui n’avaient jusqu’à présent que peu de place pour interagir.
Abstract :
The healthcare sector (public and private) generates a vast amount of data from various sources, including electronic health records, advanced imaging techniques, high throughput sequencing, wearable devices, and population health data. The use of massive datasets, or "big data", analyzed using sophisticated machine learning algorithms, has the potential to inform the development of more effective and personalized treatments, interventions, and policies, and to improve healthcare delivery and outcomes. However, the sensitive nature of personal health data, cybersecurity risks, biases in the data, and the lack of robustness of machine learning algorithms are all factors that currently limit the widespread use and exploitation of this data. These limitations thus hinder the potential benefits that can be obtained from massive health data analysis for the individuals and society.
Health data usage is governed by a complex and extensive set of ethical and legal requirements. Ensuring the security of data, regardless of its nature and how it is transmitted, processed, and transformed, is essential. At the same time, the methods used to analyze and utilize this data must also be secure, fair, and robust. This is particularly important in the face of the growing number of cyber-attacks on the healthcare sector mostly driven by the personal, economic, and innovative value of medical data and their processing.
The goal of this project is to overcome the challenges that prevent the effective use of personalized health data. To achieve this, we will develop new machine learning algorithms that are designed to handle the unique characteristics of multi-scale and heterogeneous individual health data, while providing formal privacy guarantees, robustness against adversarial attacks and changes in data dynamics, and fairness for under-represented populations. By addressing these barriers, we hope to unlock the full potential of personalized health data for a wide range of applications.
More precisely, the project will address the following scientific challenges : (i) privacy-preserving learning : new results in differential privacy and homomorphic encryption ; (ii) federated vs centralized learning : new methods and trade-off accuracy/privacy ; (iii) Robustness : data bias, non-stationarity, model drift, data shift, domain adaptation, new attacks, new defenses ; (iv) Machine un-learning or the right to be forgotten.
The project brings together a consortium of established researchers with expertise in machine learning, statistics, privacy, and robustness and biomedical applications, and a clear commitment to unlock the full potential of machine learning for healthcare applications. Its innovative character lies in its ability to mobilize such a unique community of researchers. Moreover, the project is positioned between two PEPRs (Cybersecurity and Digital Health), giving it a particular character of dissemination of knowledge and practices between research communities that have had little place for interaction so far.