Le machine learning est l'une des branches de l'intelligence artificielle (IA). On le traduit en français par apprentissage automatique. En résumant à l'extrême, la technique consiste à nourrir le logiciel de milliers d'exemples pour qu'il apprenne à effectuer des tâches de classement. Par exemple, dans des images, savoir trouver des chiens ou des chats. Des grains de beauté ou des mélanomes malins. En théorie, cela ouvre un boulevard d'applications pour la médecine. On collecte par exemple les radiographies de milliers de patients souffrant de la même maladie dans ce qu'on appelle une cohorte. Puis, grâce à ces données d'apprentissage, l'ordinateur va ensuite détecter les mêmes caractéristiques visuelles dans de nouvelles images prises lors de dépistage chez d'autres personnes. Ce sont alors les données cibles.
Côté informatique, les efforts de recherche portent principalement sur l'amélioration de la performance des algorithmes. Objectif : les rendre plus discriminants. S'assurer qu'ils détectent bien les zones d'intérêt. Cette course au meilleur modèle génère une frénésie de publications scientifiques. Elle donne lieu aussi à une sorte de championnat permanent organisé par Kaggle, une plate-forme de la galaxie Google. Pourtant, en pratique, côté médecine, ce bouillonnement de recherche « a peu d'impact clinique », regrette Gaël Varoquaux, directeur de l'équipe Soda [1] au centre Inria de Saclay et coauteur d'une étude [2] qui décortique les mécanismes à l'œuvre derrière ce paradoxe.
Des biais qui faussent le modèle
Plusieurs phénomènes se conjuguent. D'abord la taille insuffisante des données pour entraîner l'algorithme. « Quand un jeu de données est trop faible, c'est facile d'avoir sur lui une performance apparente. Mais cela ne caractérise pas une performance plus générale. Or, dans le domaine médical, il existe peu de grandes cohortes. Celles dont nous disposons sont trop petites par rapport à la complexité de nos méthodes et à la complexité des problèmes à résoudre. 1 000 personnes, ce n'est pas assez. 10 000… à débattre. Avec 100 000, on va commencer à voir plus de choses. Mais évidemment, c'est compliqué à obtenir. Et encore plus pour les maladies rares. »
De surcroît, ces données d'entraînement présentent parfois des biais qui viennent fausser le modèle. « En dermatologie, certains algorithmes ont été entraînés sur des images où les carcinomes malins avaient été entourés au crayon par des médecins qui souhaitaient ainsi bien les repérer. Donc ces algorithmes ne cherchaient plus que les carcinomes déjà entourés. Même phénomène de corrélation trompeuse sur le pneumothorax où, cette fois-ci, c'est la présence d'un drain pleural qui faussait l'apprentissage. » En l'absence du drain sur les données cibles, l'algorithme ne détectait plus rien.
Plusieurs travers à repenser
L'étude note par ailleurs que les recherches en machine learning ne s'orientent pas forcément vers les domaines cliniques où cette technologie pourrait avoir le plus d'impact. « Si l'on observe les compétitions entre algorithmes, on en dénombre beaucoup sur les radios des poumons. Mais, à notre connaissance, une seule s'intéresse aux mammographies. Or, c'est pourtant le cancer du sein qui gagnerait le plus à être détecté rapidement car on le soigne bien mieux quand on le dépiste tôt. Les chances de survie sont extrêmement bonnes. Du point de vue de la logique médicale, le machine learning pour ce cancer devrait donc avoir la priorité. »
Quant aux améliorations sur les algorithmes eux-mêmes, elles tendent à devenir anecdotiques. « Des efforts scientifiques de plus en plus importants génèrent des gains de performance de plus en plus petits. » Les auteurs passent au crible huit compétitions organisées par Kaggle : cancer du poumon, cancer de la prostate, schizophrénie, hémorragie intracrânienne… Dans cinq des cas, l'algorithme terminant premier affiche un gain tellement faible qu’il se situe en dessous de la marge d’erreur pouvant affecter sa mesure.
Autre travers : le surapprentissage. L'overfitting, comme on dit en anglais. En clair : le calibrage au millimètre près d'un modèle statistique pour qu'il épouse à la perfection le profil d'un jeu de données particulier. L'ajustement optimise la performance pour ce jeu précis, mais l'algorithme va pâtir ensuite d'une baisse d'efficacité sur les données futures. « Arrive un moment il faut donc savoir s'arrêter de triturer. »
En filigrane, apparaît aussi un problème de sociologie de la recherche. « Nos systèmes d'incitations ne sont pas les bons. On note le scientifique au nombre de publications qu'il produit. C'est comme si on le notait au kilomètre et qu'on l'encourageait à écrire plus de lignes. L'informaticien continue d'améliorer son algorithme à la marge. Il publie beaucoup. Mais arrive un moment où il ne travaille plus sur le vrai problème et où il cesse d'être utile. Il doit alors repartir du point de vue médical. Pour quelqu'un issu des mathématiques, c'est compliqué. On a une collision entre deux vérités. L'une faite de chiffres, d'axiomes, de problèmes formels. L'autre en prise avec la vie réelle et la condition du patient. »
L'interdisciplinarité en renfort
Alors comment combler le fossé entre ces deux mondes ? En créant des communautés interdisciplinaires ? « L'expérience prouve qu'il faut le faire. Cela dit, c'est nécessaire mais pas suffisant. L'informaticien doit surtout sortir de sa zone de confort. Il doit aller parler au médecin qui est l'utilisateur de ses algorithmes. Ça peut faire mal, mais c'est indispensable. L'un des buts de notre article est justement de casser la dissonance cognitive qui existe pour forcer les gens à réaliser le problème. »
[1] Soda est une équipe de recherche en machine learning appliqué à la santé et aux sciences sociales (épidémiologie, prévention…).
[2] Machine learning for medical imaging: methodological failures and recommendations for the future, par Gaël Varoquaux, Veronika Cheplygina (Inria, Université McGill de Montréal, Mila Montréal et Université IT de Copenhague), npj Digital Medicine, avril 2022.