Imagerie médicale : l'intelligence artificielle peut-elle tenir ses promesses ?

Mis à jour le 21/11/2022

En dix ans, grâce à l'intelligence artificielle, la reconnaissance d'images par ordinateur a effectué un bond de géant. En médecine, elle permet d’analyser massivement toutes sortes d'images dans le but de dépister les tumeurs et autres anomalies. Mais paradoxalement, en matière de santé, ces algorithmes ne tiennent pas toujours leurs promesses.

Photo de chercheurs devant une coupe d'une IRM d'un patient affichée en "fausses couleurs"

Le machine learning est l'une des branches de l'intelligence artificielle (IA). On le traduit en français par apprentissage automatique. En résumant à l'extrême, la technique consiste à nourrir le logiciel de milliers d'exemples pour qu'il apprenne à effectuer des tâches de classement. Par exemple, dans des images, savoir trouver des chiens ou des chats. Des grains de beauté ou des mélanomes malins. En théorie, cela ouvre un boulevard d'applications pour la médecine. On collecte par exemple les radiographies de milliers de patients souffrant de la même maladie dans ce qu'on appelle une cohorte. Puis, grâce à ces données d'apprentissage, l'ordinateur va ensuite détecter les mêmes caractéristiques visuelles dans de nouvelles images prises lors de dépistage chez d'autres personnes. Ce sont alors les données cibles.

Dans sa livraison d'avril 2022, la revue scientifique npj Digital Medicine publie une étude soulignant ainsi le décalage entre l'investissement scientifique et la réalité du progrès clinique sur le terrain. Elle est signée par Veronika Cheplygina de l'Université IT de Copenhague et Gaël Varoquaux, directeur de recherche au centre Inria de Saclay.

Portrait de Gaël Varoquaux — Gaël Varoquaux

Côté informatique, les efforts de recherche portent principalement sur l'amélioration de la performance des algorithmes. Objectif : les rendre plus discriminants. S'assurer qu'ils détectent bien les zones d'intérêt. Cette course au meilleur modèle génère une frénésie de publications scientifiques. Elle donne lieu aussi à une sorte de championnat permanent organisé par Kaggle, une plate-forme de la galaxie Google. Pourtant, en pratique, côté médecine, ce bouillonnement de recherche « a peu d'impact clinique », regrette Gaël Varoquaux, directeur de l'équipe Soda ^{^[1]} au centre Inria de Saclay et coauteur d'une étude ^{^[2]} qui décortique les mécanismes à l'œuvre derrière ce paradoxe.

Des biais qui faussent le modèle

Plusieurs phénomènes se conjuguent. D'abord la taille insuffisante des données pour entraîner l'algorithme. « Quand un jeu de données est trop faible, c'est facile d'avoir sur lui une performance apparente. Mais cela ne caractérise pas une performance plus générale. Or, dans le domaine médical, il existe peu de grandes cohortes. Celles dont nous disposons sont trop petites par rapport à la complexité de nos méthodes et à la complexité des problèmes à résoudre. 1 000 personnes, ce n'est pas assez. 10 000… à débattre. Avec 100 000, on va commencer à voir plus de choses. Mais évidemment, c'est compliqué à obtenir. Et encore plus pour les maladies rares. »

De surcroît, ces données d'entraînement présentent parfois des biais qui viennent fausser le modèle. « En dermatologie, certains algorithmes ont été entraînés sur des images où les carcinomes malins avaient été entourés au crayon par des médecins qui souhaitaient ainsi bien les repérer. Donc ces algorithmes ne cherchaient plus que les carcinomes déjà entourés. Même phénomène de corrélation trompeuse sur le pneumothorax où, cette fois-ci, c'est la présence d'un drain pleural qui faussait l'apprentissage. » En l'absence du drain sur les données cibles, l'algorithme ne détectait plus rien.

Plusieurs travers à repenser

L'étude note par ailleurs que les recherches en machine learning ne s'orientent pas forcément vers les domaines cliniques où cette technologie pourrait avoir le plus d'impact. « Si l'on observe les compétitions entre algorithmes, on en dénombre beaucoup sur les radios des poumons. Mais, à notre connaissance, une seule s'intéresse aux mammographies. Or, c'est pourtant le cancer du sein qui gagnerait le plus à être détecté rapidement car on le soigne bien mieux quand on le dépiste tôt. Les chances de survie sont extrêmement bonnes. Du point de vue de la logique médicale, le machine learning pour ce cancer devrait donc avoir la priorité. »

Quant aux améliorations sur les algorithmes eux-mêmes, elles tendent à devenir anecdotiques. « Des efforts scientifiques de plus en plus importants génèrent des gains de performance de plus en plus petits. » Les auteurs passent au crible huit compétitions organisées par Kaggle : cancer du poumon, cancer de la prostate, schizophrénie, hémorragie intracrânienne… Dans cinq des cas, l'algorithme terminant premier affiche un gain tellement faible qu’il se situe en dessous de la marge d’erreur pouvant affecter sa mesure.

Autre travers : le surapprentissage. L'overfitting, comme on dit en anglais. En clair : le calibrage au millimètre près d'un modèle statistique pour qu'il épouse à la perfection le profil d'un jeu de données particulier. L'ajustement optimise la performance pour ce jeu précis, mais l'algorithme va pâtir ensuite d'une baisse d'efficacité sur les données futures. « Arrive un moment il faut donc savoir s'arrêter de triturer. »

En filigrane, apparaît aussi un problème de sociologie de la recherche. « Nos systèmes d'incitations ne sont pas les bons. On note le scientifique au nombre de publications qu'il produit. C'est comme si on le notait au kilomètre et qu'on l'encourageait à écrire plus de lignes. L'informaticien continue d'améliorer son algorithme à la marge. Il publie beaucoup. Mais arrive un moment où il ne travaille plus sur le vrai problème et où il cesse d'être utile. Il doit alors repartir du point de vue médical. Pour quelqu'un issu des mathématiques, c'est compliqué. On a une collision entre deux vérités. L'une faite de chiffres, d'axiomes, de problèmes formels. L'autre en prise avec la vie réelle et la condition du patient. »

L'interdisciplinarité en renfort

Alors comment combler le fossé entre ces deux mondes ? En créant des communautés interdisciplinaires ? « L'expérience prouve qu'il faut le faire. Cela dit, c'est nécessaire mais pas suffisant. L'informaticien doit surtout sortir de sa zone de confort. Il doit aller parler au médecin qui est l'utilisateur de ses algorithmes. Ça peut faire mal, mais c'est indispensable. L'un des buts de notre article est justement de casser la dissonance cognitive qui existe pour forcer les gens à réaliser le problème. »

^{^[1]} Soda est une équipe de recherche en machine learning appliqué à la santé et aux sciences sociales (épidémiologie, prévention…).

^{^[2]} Machine learning for medical imaging: methodological failures and recommendations for the future, par Gaël Varoquaux, Veronika Cheplygina (Inria, Université McGill de Montréal, Mila Montréal et Université IT de Copenhague), npj Digital Medicine, avril 2022.

Imagerie médicale : l'intelligence artificielle peut-elle tenir ses promesses ?

Des biais qui faussent le modèle

Plusieurs travers à repenser

L'interdisciplinarité en renfort

À lire aussi sur l'IA et la santé

Serena Ivaldi : « Nous voulons faire des robots capables de mieux aider les humains »

Xavier Pennec, virtuose de la statistique géométrique au service de la santé

France 2030 | Le gouvernement investit plus de 40 millions d’euros dans le programme de recherche NumPEx