Sites Inria

Interview

Charlotte Renauld - 21/09/2015

Un logiciel de « fact checking » pour comprendre le monde qui nous entoure

Ioana Manolescu est directeur de recherche chez Inria au centre de Saclay – Ile-de-France et responsable de l’équipe OAK, équipe commune avec l’Université Paris-Sud. Elle travaille actuellement sur un outil de décryptage de contenus : « un logiciel pour traquer les bobards des politiques ? » comme le cite Ouest France dans son article du jeudi 3 septembre 2015.

Revenons sur son parcours et le fonctionnement de ce projet ambitieux.

Vous êtes responsable de l’équipe de recherche OAK, sur quoi travaillez-vous ?

IM : Nous travaillons sur l’optimisation de la gestion de grands volumes de données complexes par la conception de nouveaux ou de meilleurs outils. 

Le fonctionnement de la société actuelle produit de plus en plus de données numériques alors qu’il y a quarante ans, l’utilisation des bases de données concernait uniquement les données bancaires. Dans les années 60, les comptes en banque ont été la première application grand public des bases de données informatiques. Cette informatisation a notamment permis de créer les cartes électroniques de paiement. Aujourd’hui, au contraire, les données électroniques concernent plein de domaines de la vie. Une requête pourrait permettre de savoir combien de fois par mois vous écrivez à vos parents, avec qui vous passez le plus de temps sur Skype.  Ces nouvelles données ne sont pas du même format que les données que nous avons eu l’habitude de traiter depuis quarante ans, il faut donc de nouveaux outils pour ces nouvelles données. De plus, leur volume et leur complexité sont plus grands. 

Comment est né ce projet de conception d’un logiciel de fact checking ?

IM :  C’est une assez longue histoire qui pour moi a commencé en 2012, année de campagnes électorales en France et aux États-Unis. A ce moment là, des groupes de personnes se sont mis à faire ce que l’on appelle du « fact checking ». Traditionnellement, c’était un travail de journaliste qui visait à s’assurer que l’on ne publie pas des erreurs factuelles ou des interprétations qui pourraient tromper le lecteur. 

En 2012, des associations et des collectifs se sont mis à faire du fact checking sur la base des déclarations de personnalités publiques. De bonnes volontés, financées par des groupes privés, qui souhaitaient faire émerger un discours politique plus propre. En France, des groupes de journalistes, notamment au Monde (Les Décodeurs) ou chez Libération (Intox-Désintox) ont commencé à faire cet effort de vérification et d’éclaircissements des propos politiques. La société moderne actuelle et les sujets d’actualité sont compliqués. Pour se faire un avis sur le sujet des migrants, sur le chômage, sur les effets de l’insecticide Monsanto, il faut encore arriver à les comprendre ! Pour moi, en tant que chercheur en bases de données, sachant que des informations existent, sachant que des experts publient des rapports et des études, sachant qu’il y a des informations quelque part accessibles, c’est vexant de ne pas y avoir accès personnellement ; le fait que les informations soient disponibles au format électronique sur Internet ne suffit pas pour que l’on y accède aussi bien et aussi vite que ce que l’on voudrait. 

Je me suis rendu compte en 2012 que les bases de données pourraient apporter beaucoup à la résolution de ce problème.

Concrètement, en quoi consiste ce logiciel ?

IM :  Il existe de grands volumes de données qui sont pertinents et accessibles, auxquels on a le droit. Cela s’appelle l’Open Data. Il ne s’agit pas de données sur des personnes mais de données créées par les services de l’Etat (par exemple des statistiques sur le nombre de naissances dans chaque maternité, sur la production agricole de tel fruit dans   telle région…). Nous avons imaginé interroger toutes ces données, les analyser, de façon presque automatique, pour vérifier les propos qui sont tenus dans l’espace public.

Ce dont je rêve serait, par exemple, la diffusion d’un télétexte, sous les déclarations des politiciens à la télévision, qui récupérerait les informations d’un organisme tel que l’Insee (Institut national de la statistique et des études économiques) sur le sujet traité. Cela permettrait instantanément aux spectateurs de se faire une idée sur la vérité du propos, ou d’approfondir son analyse : si un chiffre est énoncé, quelle en est la tendance sur les dix dernières années ? Qu’en est-il dans d’autres pays comparables ? etc…

Et techniquement, comment cela fonctionnera-t-il ?

IM :  Nous mettrons à profit des outils d’analyse de texte, pour que les propos qui sont tenus puissent être compris et analysés et que les entités qui sont mentionnées soient identifiées ; et les bases de données, dans lesquelles nous aurons stocké les données dont nous disposons et les propos tenus au fil du temps. Des informations sémantiques permettront d’interpréter ce que l’on aura extrait du texte : ainsi, nous reconnaîtrons qu’un député de tel parti est un élu, qu’il a un mandat, pour une certaine durée, nous  pourrons inférer ses positions sur certains sujets de société, etc. 

L’analyse de texte, les bases de données et la sémantique, ensemble, constitueront une belle chaîne d’analyse qui permettra de sortir les informations contextuelles qui sont les plus pertinentes par rapport au sujet, le plus vite et de façon la plus utile possible. Je pense que les conversations politiques en seraient plus éclairées ! L’idée est de mettre en place une plate-forme logicielle que nous essaierons de rendre très modulaire. Chacun pourra n’utiliser qu’une partie du logiciel pour créer une application selon ses besoins, selon le sujet qui l’intéresse.

Comment fonctionne l’équipe qui travaille sur ce projet ?

IM : L’équipe OAK a développé un premier outil de ce type en 2013, il était basé sur des idées de départ qui ont depuis évolué. Il y a deux ans, le directeur du laboratoire LIMSI (Université-Paris Sud et CNRS) m’a mise en relation avec Xavier Tannier, chercheur au LIMSI, qui travaillait sur des sujets similaires. Notre collaboration est née d’un besoin de faire évoluer l’outil existant pour qu’il réponde aux attentes réelles des journalistes.  Nous sommes allés à la rencontre de l’équipe Les Décodeurs, du Monde, dirigée par Samuel Laurent et composée de journalistes, d’infographistes et d’un programmeur. Chacun de nous avait des compétences utiles pour ce projet, nous nous sommes donc dit qu’il fallait le monter tous ensemble, et déposer un projet à l’ANR (Agence Nationale de Recherche). Ce projet a été accepté. Aujourd’hui, je le coordonne. Il inclut OAK, le LIMSI (notamment X. Tannier), l’Université de Rennes 1 (F. Goasdoué) et l’INSA de Lyon (notamment S. Cazalens et P. Lamarre).

Où en êtes-vous ?

IM :  Ce projet va démarrer en janvier 2016 et durera 4 ans. C’est un projet profondément collaboratif. Xavier Tannier et nos collègues de Lyon et de Rennes apportent au logiciel créé par l’équipe OAK des contributions qui nécessitent que l’on repense l’architecture du logiciel, concrètement de refaire du code frais. Pour cela, le premier soutien a été apporté par Inria qui a financé un poste d’ingénieur qui va rejoindre notre équipe et commencer cette refonte du logiciel. Il sera ensuite épaulé par des personnes recrutées par le projet ANR.

Vous avez reçu un Google Award pour ce projet, quel en est l’impact ?

IM :  J’ai été informée du fait que Google allait ouvrir un programme de remise de prix spécifique pour la recherche dans ce domaine. Avec Xavier, nous avons isolé une petite idée de notre contrat ANR, l’avons développée et soumise à l’appel à propositions. Google sponsorise depuis ce deuxième projet sur une durée d’un an. Le projet Google va démarrer en premier ; le projet ANR pourra s’appuyer sur ses résultats. Le projet Google est un peu plus appliqué, tandis que le projet ANR est plus ambitieux, plus scientifique, à plus long terme.

Que pouvons-nous vous souhaiter pour la suite de vos recherches ?

IM :  De bons développeurs ! Car le projet est vraiment ambitieux. Nous sommes sur des terres inexplorées. Les bases de données ont d’abord servi la finance, puis peu à peu tous les domaines du commerce et de l’industrie en général, mais les sciences humaines sont restées à l’écart. Et pourtant c’est peut-être l’endroit où il y a le plus à faire. Traditionnellement, il y a une frontière entre ce que les bases de données peuvent traiter et le reste des contenus. Notre projet vise à pousser cette frontière et permettre à la base de données d’investir de plus en plus de domaines. 

D’origine roumaine, j’ai vécu une dictature jusqu’à mes quatorze ans. Je pense que c’est très important de voter, d’avoir un mot à dire sur la façon dont la société est gérée. Mais ça ne sert à rien d’être libre si on ne comprend pas les conséquences de ses choix. Je dis souvent « j’ai des diplômes en études supérieures et de la bonne volonté, mais je ne comprends pas ma fiche de paye, les multiples charges et cotisations ». L’informatique peut nous aider à mieux comprendre le monde qui nous entoure. 

Mots-clés : Ioana Manolescu INRIA Saclay - Île-de-France Interview CNRS LIMSI OAK Base de données Optimisation Journalisme

Haut de page