Linkage : un outil d’IA pour l’analyse de publications médicales

Date :
Mis à jour le 22/06/2020
La plate-forme Linkage.fr permet l’analyse et la synthèse de la littérature scientifique sur sujet donné, "COVID-19" par exemple. Grâce aux plugins ajoutés récemment pour l'extraction et l'analyse de réseaux de copublications et de cocitations pour les plates-formes PubMed et BioArxiv, Linkage permet aux médecins et chercheurs de suivre les publications sur un sujet donné tout en analysant les thèmes de recherche abordés. Ainsi, Linkage s’est avéré extrêmement utile pour synthétiser la masse de publications sur le COVID-19 dans les dernières mois (16 000 publications sur PubMed ces 4 derniers mois).
Charles Bouveyron et Pierre Latouche
© SATT-IDF-INNOV

Quelle est la genèse de votre projet ?

Porteur : Charles Bouveyron, Chaire & Directeur Scientifique Adjoint de l’Institut 3IA Côte d’Azur, responsable de l’équipe-projet Maasai, Inria Sophia Antipolis - Méditerranée, Université Côte d’Azur

Partenaire : Pierre Latouche, Professeur à l'université de Paris

#IA #publications médicales #analyse #réseaux

La technologie Linkage est le fruit d’une longue collaboration avec Pierre Latouche, Professeur à l’université de Paris, sur l’analyse statistique des réseaux. Après avoir travaillé longtemps sur des réseaux dits « binaires », pour lesquels uniquement la présence ou l’absence d’arêtes est considérée, nous nous sommes penchés à partir de 2014 sur des réseaux plus complexes, mêlant plusieurs types de données (arêtes catégorielles, dynamiques, textes, etc.).

Cela pourrait surprendre mais nos premiers travaux sur ce sujet se sont déroulés avec des collègues historiens médiévistes, avec lesquels nous avons analysé un réseau social d’évêques au haut Moyen-Âge [1]. Nous avons alors réalisé l’importance de prendre en compte des réseaux dont les arêtes sont caractérisées par du texte. Cela englobe en effet de très nombreux cas allant des réseaux sociaux, des réseaux de communications (emails, SMS, etc.), jusqu’aux données transactionnelles (par exemple les Panama Papers), en passant par les réseaux de copublications scientifiques. 

Nous avons proposé en 2017 un modèle et son algorithme d’inférence permettant d’analyser de telles données [2]. En 2018, nous avons mis à la disposition des différentes communautés une plate-forme SAAS (software as a service), Linkage.fr, qui permet à chacun d’analyser ses propres données ou des données publiques dans une interface simple d’utilisation. Cette simplicité d’utilisation est rendue possible par le fait que Linkage est tout à fait autonome dans l’analyse des données et ne requiert pour ainsi dire pas d’intervention de l’utilisateur avant la phase d’interprétation des résultats. Cela est notamment dû au fait que Linkage repose sur un modèle statistique qui peut être estimé et calibré de façon automatique à partir des données.

Grâce à la plate-forme Linkage.fr, la technologie est utilisée par un public très large, allant des chercheurs et chercheuses aux entreprises, et sur des thématiques variées. Outre l’usage évident pour la surveillance des réseaux de communication, Linkage s’avère également un très bon outil pour l’analyse et la synthèse de publications scientifiques au travers des réseaux de copublications et de cocitations. 


[1] C. Bouveyron, L. Jegou, Y. Jernite, S. Lamassé, P. Latouche & P. Rivera, The random subgraph model for the analysis of an ecclesiastical network in merovingian Gaul, The Annals of Applied Statistics, vol. 8(1), pp. 377-405, 2014.

[2] C. Bouveyron, P. Latouche and R. Zreik, The Stochastic Topic Block Model for the Clustering of Networks with Textual Edges, Statistics and Computing, vol. 28(1), pp. 11-31, 2017.

Comment se développe-t-il aujourd'hui et quels sont ses objectifs ?

L’épidémie de Covid-19 a présenté pour les chercheurs et les institutions du domaine de la santé un cas d’usage singulier où la capacité à suivre et synthétiser les publications scientifiques sur un thème donné s’est avérée stratégique.

En effet, avec plus de 5000 publications et prépublications par mois sur le virus Covid-19, il s’est avéré essentiel pour les chercheurs et médecins de disposer d’outils capables de synthétiser les publications sur ce sujet en les regroupant sur la base des thèmes de recherche qu’elles mobilisent. Ainsi, les chercheurs et médecins qui utilisent Linkage ont la capacité de visualiser qui publie avec qui à propos du virus et avec quel angle de recherche. La figure ci-dessous illustre le résultat de l’analyse avec Linkage des publications sur le Covid-19 disponibles sur PubMed.

Capture écran des résultats de recherche avec Linkage
© Linkage
Analyse avec Linkage des publications sur le Covid-19 disponibles sur PubMed. Les couleurs des arêtes correspondent aux thèmes de recherche identifiés et listés dans la colonne de gauche.

Suite aux échanges récents avec l’INSERM, l’Inca et l’AP-HP, nous avons développé sur fonds propres de nouveaux plugins permettant la récupération de données de publications médicales. Linkage permet à présent de récupérer des données de copublications depuis les serveurs BioArxiv, MedArxiv, en plus des plugins PubMed, HAL et Arxiv déjà existants. Il est aussi possible à présent de faire une analyse à partir des données de l’ensemble de ces sources avec une unique requête. Nous avons également ajouté la possibilité d’analyse des réseaux de cocitations à partir du serveur PubMed.

Ainsi, Linkage offre dès à présent un spectre d’analyse très large concernant les données biomédicales et va pouvoir, nous l’espérons, aider les chercheurs en santé publique et médecins dans leurs missions, contre le Covid-19 mais aussi sur les autres maladies.

Comment travaillez-vous avec vos partenaires ?

Pierre Latouche et moi-même avons l’habitude de développer des outils en étroite collaboration avec les personnes qui font face aux problématiques posées par les données dans leur usage.

Cela nous permet de formaliser un problème théorique très proche du problème observé et de proposer une solution d’intelligence artificielle qui puisse être mise en place facilement ensuite pour résoudre le problème initial.

Cela demande souvent une communication interdisciplinaire, qui n’est pas toujours simple, mais qui permet de proposer des outils utiles … et qui sont utilisés !