FedMalin : le Groupe La Poste soutient un Défi Inria dans son exploration des possibilités offertes par l'apprentissage fédéré

L’apprentissage fédéré (federated learning en anglais) est aujourd’hui l’un des champs les plus prometteurs des sciences des données. Lancé le 28 novembre 2022 au centre Inria de Paris, le défi FedMalin porté par Inria vise à faire progresser la recherche sur ce thème hautement stratégique, avec de multiples applications possibles, notamment dans le champ de la santé. Mobilisant des équipes et moyens sans précédent sur la thématique, il bénéficie d’un soutien décisif du Groupe La Poste dans le cadre de son mécénat conclu avec la Fondation Inria.

28 novembre 2022 / mis à jour le 28 avril 2023

L’apprentissage fédéré, un champ dynamique et prometteur de recherche

Nouveau paradigme dans le champ des algorithmes, des bases de données et de l’apprentissage automatique (machine learning), l’apprentissage fédéré consiste à déployer des algorithmes de machine learning sur des données de plusieurs entités stockées localement. Ainsi, si les données sont décentralisées et restent la propriété de leurs entités hôtes, les résultats des apprentissages et de leur exploitation peuvent être mis en commun entre membres d’un même réseau.

En travaillant sur des volumes toujours plus importants de données, cette mécanique d’apprentissage fédéré permet d’obtenir des résultats significatifs et de développer des modèles prédictifs dans de nombreux champs. Mais elle soulève également de nouvelles questions telles que la confidentialité des données sous-jacentes, la consommation d’énergie des systèmes d’apprentissage, la personnalisation ou encore les effets des corrélations spatiales et temporelles. C’est pour répondre à ces questions qu’Inria a lancé le Défi FedMalin (Federated Machine Learning over the Internet), soutenu par la Fondation Inria et le mécénat du Groupe La Poste. D’une ampleur inédite, ce défi scientifique regroupe 10 équipes de recherche (COATI, COMETE, DYOGENE, EPIONE, MAGNET, MARACAS, NEO, SPIRALS, TRIBE, WIDE) et se structure autour de 6 work packages. La responsabilité scientifique est assurée par Aurélien Bellet et Giovanni Neglia (Inria).

6 work packages pour répondre aux défis de l’apprentissage fédéré :

  1. Privacy and Fairness : répondre aux questions spécifiques relatives à la protection des données dans un contexte d’apprentissage fédéré.
  2. Energy : quantifier les consommations énergétiques des algorithmes actuels et en développer de nouveaux, plus sobres.
  3. Personalization : explorer les possibilités théoriques et pratiques de personnalisation (recommandations, autocompletion de textes) à l’échelle de l’utilisateur grâce à des résultats issus d’un apprentissage fédéré.
  4. Location-dependent models : développer des modèles d’apprentissage fédéré basés sur des flux de données captés localement (capteurs sur un bâtiment, smart city…).
  5. Experimentation and software development : développer un environnement de logiciels et technologies à même de faciliter les expérimentations des autres work packages et plus globalement de la communauté scientifique.
  6. Concrete Use Case : développer des applications concrètes, notamment dans les champs de la médecine et de la « mesure de foules » (crowdsensing).

Des applications prometteuses, à condition de relever le défi de la protection des données

Les travaux du Défi FedMalin sont pour le moment essentiellement dédiés à des applications dans le monde hospitalier et de la santé. Il vise trois objectifs : analyser et garder les données localement, enrichir les modèles centraux avec les éléments appris localement et adapter les modèles locaux à leurs biais particuliers.

Dans le cadre de ce défi, des collaborations avec la Cnil et plusieurs institutions médicales telles qu’Unicancer Hospitals, le CHU de Lille et le Groupement de Coopération Sanitaire G4 (qui, depuis 2004, réunit les CHU d’Amiens, Caen, Lille et Rouen) sont prévues pour lancer différentes expérimentations d’apprentissage fédéré.

En déployant des algorithmes de machine learning sur les données médicales d’un nombre important de structures de santé (imagerie médicale, données cliniques et biologiques), il devient possible de construire des modèles statistiques prédictifs quant à l’évolution de l’état de santé des patients concernés.

Si les possibilités médicales ouvertes par l’apprentissage fédéré sont vastes, la sensibilité des données sous-jacentes (données de santé personnelles des patients) est importante. Le Défi FedMalin s’attache ainsi à développer ses expérimentations en garantissant la confidentialité de ces données et en réduisant les risques d’intrusions. Cela passe notamment par la mise en place de protocoles respectueux des règles de confidentialité des données locales, le renforcement de la sécurité des algorithmes, ou la préférence pour des solutions open source, transparentes pour les parties prenantes du système.

C’est cette articulation entre sécurité des données, mobilisation d’un système distribué et enrichissement de modèles centraux qui a notamment motivé le soutien du Groupe La Poste.

Une recherche décisive dans un environnement fortement compétitif

Le lancement de ce défi se fait dans un moment d’accélération des recherches en matière d’apprentissage fédéré. Toutefois, si la recherche progresse, les applications restent encore limitées. En mettant en place un programme de recherche de cette ampleur, Inria prend une position centrale sur cette thématique stratégique. Le développement de solutions open source, concurrentes des logiciels propriétaires existants, permettra des avancées à large échelle de la communauté et une contribution décisive des équipes Inria.

L’apprentissage fédéré fait ainsi figure d’alternative aux modèles centralisés de type cloud portés par les grandes firmes américaines : les données restent la propriété des parties prenantes, sont stockées localement, traitées par des logiciels open source, tout en ouvrant des possibilités de traitement de jeux de données à grande échelle.

Exploiter les potentiels d’innovation des données et du machine learning par des solutions décentralisées, transparentes et respectueuses des personnes et de l’environnement : il s’agit là d’un projet emblématique de l’enjeu de société numérique de confiance porté par la Fondation Inria avec le soutien décisif du Groupe La Poste.

Crédits photo : Inria / photo G. Scagnelli

Modélisation et IA pour améliorer le suivi des cancers : MSD Avenir soutient le projet Pimiento

La Fondation Inria et le Fonds de dotation MSD Avenir du laboratoire pharmaceutique MSD France annoncent la signature d’un partenariat permettant de soutenir à hauteur de 900 000 € répartis sur quatre ans un projet de recherche très prometteur dans le domaine du cancer du poumon non à petites cellules.

11 décembre 2018 / mis à jour le 18 mars 2023

Un cancer très fréquent, une diversité de traitements

Deuxième cancer le plus fréquent chez l’homme, troisième chez la femme, le cancer du poumon est la première cause de décès par cancer chez l’homme, la deuxième chez la femme. Sa fréquence est en augmentation.

À côté des cancers bronchiques à petites cellules (CPC), étroitement liés à la consommation tabagique, les cancers bronchiques non à petites cellules (CBNPC) représentent plus de 80 % des cancers du poumon. En France, 40 000 nouveaux cas de cette forme de cancer du poumon sont constatés chaque année.

Les traitements existants pour cette deuxième famille de cancers du poumon représentent un progrès thérapeutique indéniable. Ils rendent également l’arbre de décision de plus en plus complexe pour les professionnels de santé. Les nouveaux traitements agissent par ailleurs en induisant des changements dans le métabolisme de la tumeur ou dans le micro-environnement.

De nouveaux critères tenant compte de l’hétérogénéité des tumeurs doivent donc être élaborés, pour permettre une évaluation plus précoce de la réponse à ces nouveaux traitements.

Les mathématiques au service de la prévention des cancers

Le défi lancé par le projet Pimiento, mené par l’équipe-projet MONC (Modélisation en ONCologie) et son responsable Olivier Saut, est d’améliorer, grâce à des outils d’aide à la décision, l’évaluation du résultat clinique et du risque d’échec pour chaque classe de traitement (radiothérapie, chimiothérapie, thérapies ciblées, immunothérapie ou chirurgie). En contribuant ainsi à une meilleure prise en charge et une plus grande qualité de vie des patients.

L’équipe MONC développe depuis plusieurs années des modèles mathématiques décrivant la croissance du cancer et l’effet des traitements en exploitant toutes les informations disponibles : imagerie, informations génomiques, données cliniques… Au final, l’objectif est d’évaluer précocement l’efficacité d’un traitement afin que le médecin puisse savoir, très vite après le début du traitement, si celui-ci va marcher ou pas et qu’il adapte sa stratégie thérapeutique en connaissance de cause.

Le projet Pimiento s’appuiera sur plusieurs outils de pointe développés au sein de l’équipe pour :

  • la résolution et simulation de modèles mathématiques du cancer et de son traitement ;
  • le traitement d’images médicales (segmentation, enregistrement et calcul des caractéristiques radiomiques) ;
  • l’assimilation de données cliniques pour personnaliser les modèles ;
  • l’apprentissage statistique (machine et profond).

L’équipe MONC travaille étroitement avec les médecins et leurs patients, avec la société Sophia Genetics, une société spécialisée dans le domaine de la génomique clinique et de l’imagerie s’appuyant sur l’intelligence artificielle, et les hôpitaux, par exemple l’Institut Bergonié, à Bordeaux, l’hôpital Tenon (AP-HP) et le centre Léon Bérard à Lyon.

Crédits photo : Freepik