Dans le jardin de l’IA : l’arbre de décision

Mis à jour le 19/05/2021

Rencontre avec Marie-Dominique Devignes, chercheuse CNRS dans l'équipe-projet CAPSID, commune à Inria Nancy-Grand Est et au laboratoire Loria, spécialiste en bio-informatique.

Quand un programme répond par "oui" ou par "non" à un test, cela peut être représenté par un embranchement. Chacune des branches peut conduire à un nouveau test, donc un nouvel embranchement. L’arbre de décision pousse ainsi. Ses ramifications dont d’autant plus nombreuses que les tests sont diversifiés. Pourtant, rien ne "pousserait" dans ce jardin, si les scientifiques ne plantaient pas, dans le terreau de l’informatique, des graines sous la forme de "jeux de données".

Explications avec Marie-Dominique Devignes.

Portrait de Marie-Dominique Devignes — © Inria / Photo C. Morel

En santé, l’aide à la décision ne surgit pas d’une terre vierge. Les médecins disposent déjà d’algorithmes de diagnostic basés sur leurs connaissances, leurs pratiques, leurs recherches. Cette expertise peut être représentée sous forme d’arbres de décision informatiques, ce qui permet aux machines d’exécuter ces raisonnements.

Mais les machines peuvent aussi faire pousser de nouveaux arbres qu’elles "apprennent" à partir des données. Par exemple, pour comprendre pourquoi certains patients répondent à un traitement, nous allons collecter toutes les données biomédicales disponibles sur eux, et les grouper en deux classes, selon qu’ils répondent ou non. La machine va analyser ce jeu de données et en extraire ce qui est prédominant dans chaque classe, sous forme de tests constituant les embranchements d’un arbre de décision.

Cet arbre est optimal pour le jeu de données fourni, mais il n’est cependant qu’un modèle qu’il faut ensuite valider en vérifiant si les nouveaux patients sont bien classés.

Si le programme se trompe trop souvent, il faut refaire pousser un arbre en élargissant le jeu de données d’apprentissage. À l’instar des êtres humains, l’IA a ses contraintes : la machine ne peut pas apprendre correctement sur des jeux de données limités.

Quel rapport entre l’IA et le « web sémantique » ?

Un endroit où l’on trouve des masses de données, c’est le Web. Les technologies du Web sémantique permettent de faire de l’IA sur les données du Web. En effet, elles donnent du sens à ces données pour que les machines puissent en apprendre quelque chose comme le feraient les êtres humains. Ainsi, la classification des pathologies doit d’abord être représentée selon les standards du web sémantique - c’est ce qu’on appelle alors une "ontologie" biomédicale - pour pouvoir être ensuite utilisée par un programme capable de calculer des similitudes entre des individus malades.

Depuis longtemps, la recherche en IA essaye "d’apprendre" les ontologies biomédicales de façon automatique à partir des publications scientifiques sur le Web. C’est très difficile car le langage écrit est complexe de même que les concepts médicaux.

Qu’appelle-t-on une "boite noire" dans le monde de l’IA ?

C’est par exemple le résultat de l’apprentissage par les réseaux de neurones, profond ("deep learning" ) ou non. On rentre dans la boîte, en posant une question précise sur un cas particulier, avec toutes les données nécessaires, on en sort avec la réponse fournie par le réseau de neurones (par exemple "oui, ce patient va répondre au traitement" ). La boîte est noire car le réseau ne sait pas dire pourquoi il donne cette réponse. Il utilise seulement le résultat d’un entraînement à partir de milliers de questions du même type dont on connaissait déjà la réponse.

C’est le contraire de l’arbre de décision ou des ontologies, qui se veulent intelligibles. Le défi est maintenant de combiner les performances de l’IA "boite noire" avec les qualités de l’IA intelligible.»

Laurence Verger

Responsable communication recherche

CHRU de Nancy