Sites Inria

English version

Équipe associée

Sophie Timsit - 6/06/2018

LEGO : apprendre le langage naturel aux machines

CC0 - Pexels

Apprendre aux machines à analyser un langage et des mots dans un grand volume de données pour en extraire de l’information et accomplir des tâches… C’est l’objectif des travaux de l’équipe associée LEGO : "Apprentissage de représentations pour le traitement automatique du langage naturel". Créée en janvier 2016 pour une durée de trois ans, LEGO associe l’équipe-projet Magnet* et l’université de Californie du Sud. Un partenariat qui arrive bientôt à son terme et qui promet encore de belles avancées.

Des ordinateurs pour faire face à l’explosion des données textuelles

« Notre projet s’inscrit dans l’ère de l’intelligence artificielle et du Big Data » , annonce Aurélien Bellet, chercheur de l’équipe-projet Magnet. En janvier 2016, l’équipe lilloise a lancé LEGO, une équipe associée avec des chercheurs de l’université de Californie du Sud. LEGO s’intéresse aux réseaux d’informations disponibles sur Internet et en particulier aux grands volumes de données qui présentent une dimension textuelle, comme Wikipédia, les réseaux sociaux ou les blogs. Pour analyser de telles quantités de données, il est devenu nettement plus efficace d’apprendre aux machines à traiter le langage naturel que de faire intervenir des humains. L’idée est d’utiliser des techniques d’intelligence artificielle pour générer des représentations internes de textes et de mots permettant aux ordinateurs d’interpréter automatiquement des données et d’en extraire les informations nécessaires à l’exécution de calculs et de tâches. Mais comme le souligne le chercheur, « le défi est de taille, car le langage naturel n’est pas un langage formel comme le langage de programmation. Il existe des éléments de contexte, des mots à double sens, des ambiguïtés, des références culturelles implicites et d’autres détails difficiles à prendre en compte pour une machine. »

Notre projet s’inscrit dans l’ère de l’intelligence artificielle et du Big data .

Aurélien Bellet - Inria / Photo C. Morel

Repousser les limites et les performances des machines

« Nous entraînons les machines à générer des représentations de mots dans l’espace pour leur permettre de faire des rapprochements sémantiques entre les mots, d’étudier la syntaxe des phrases et ainsi, de comprendre le sens des textes et même les émotions, les sentiments associés. »  Ces travaux fondamentaux peuvent être appliqués à de multiples problèmes concrets, par exemple la recherche et la recommandation de documents textuels comme des articles de presse, ou encore la prévention du malaise social et du suicide par le biais de l’analyse automatique des posts sur les réseaux sociaux. Plus généralement, ils offrent aux machines la possibilité d’extraire des connaissances des textes, de les comparer et de faire des liens entre les données et les textes analysés. Et ce n’est pas tout. « Nous œuvrons également sur l’apprentissage automatique de représentations textuelles avec une dimension visuelle. Nous poussons les machines à rapprocher la représentation des mots en fonction de leur fréquence de cooccurrence dans les grands corpus de textes, mais aussi de leurs similitudes visuelles. » Pour cela, en plus des corpus textuels, les machines sont entraînées sur des banques d’images comme ImageNet . « L’objectif est d’enrichir la représentation conceptuelle du texte avec une dimension visuelle. Ceci permet également d’améliorer les outils de recherche d’images en langage naturel. »

Une collaboration ancienne sur l’apprentissage automatique 

L’histoire commence avec le postdoctorat d’Aurélien Bellet, réalisé en 2013-2014 dans l’équipe du professeur Fei Sha de l’université de Californie du Sud avant son recrutement chez Inria. « La création de LEGO nous a permis de pérenniser, formaliser et renforcer cette collaboration, mais aussi d’impliquer les compétences de l’équipe Magnet que j’ai intégrée après mes années de postdoctorat. » Les deux équipes travaillent sur les aspects fondamentaux de l’apprentissage automatique, ou machine learning , une branche majeure de l’intelligence artificielle. Pour mener à bien le projet LEGO, l’équipe Magnet apporte ses compétences en linguistique et structuration du langage, tandis que l’équipe du professeur Fei Sha met à contribution son expérience en matière d’apprentissage profond, ou deep learning , et de traitement des images. Leur collaboration sur les aspects textuels et visuels de la représentation du langage naturel émerge de la création de l’équipe associée.

Il existe des éléments de contexte, des mots à double sens, des ambiguïtés, des références culturelles implicites et d’autres détails difficiles à prendre en compte pour une machine.

L’équipe associée va demander son renouvellement

« Les retombées du projet LEGO sont très positives » , affirme Aurélien Bellet. À tel point qu’elles ont permis à Mélissa Ailem, docteure à l’université Paris Descartes, de décrocher une bourse de postdoctorat Inria@SilliconValley pour se consacrer aux problématiques de l’équipe associée. « Mélissa nous apporte une expertise très spécifique sur les modèles probabilistes et fait le lien entre nos deux laboratoires... » L’équipe associée arrivera à son terme en fin d’année, mais les chercheurs envisagent de demander son renouvellement, notamment pour explorer le transfert automatique de représentations d’une langue à une autre. « Cet axe de recherche est très important, car pour certains langages peu usités, il n’existe pas de corpus de textes assez larges pour servir de référence. »  Les chercheurs aimeraient également étudier l’évolution du langage naturel au fil du temps. « Le sens des mots évolue, de nouveaux mots apparaissent, et il est essentiel de prendre en compte ces changements pour obtenir des représentations dynamiques du langage. »

Équipes associées Inria

Une "équipe associée" est un projet de recherche commun créé entre une équipe-projet Inria et une équipe de recherche basée à l'étranger. Les deux partenaires définissent conjointement un objectif scientifique, un plan de recherche et un programme d’échanges bilatéraux. Afin de promouvoir et de développer de telles collaborations, en soutenant des projets de recherche d’excellent niveau scientifique, la direction des partenariats européens et internationaux (DPEI) d’Inria, lance chaque année un appel à projets.

 

Inria@SiliconValley

Inria@SiliconValley structure et renforce les collaborations en recherche et innovation entre Inria et ses partenaires en Californie pour mener des projets conjoints ayant un impact transatlantique. Ce programme s’appuie sur les différents programmes de recherche et mobilité internationale d’Inria qui ont permis le soutien d’une trentaine de projets de recherche conjoints depuis 2011 (équipes associées), le séjour de chercheurs et chercheuses Inria en sabbatique, l’accueil d’Inria International Chair , l’embauche de postdoctorantes et postdoctorants...

* l’équipe-projet Magnet est commune avec le CNRS, l’Université de Lille − sciences humaines et sociales et l'Université de Lille − sciences et technologies. Au sein de l'UMR 9189 CNRS-Centrale Lille-Université de Lille − sciences et technologies, CRIStAL.

Mots-clés : Traitement automatique des langues Machine learning Intelligence artificielle Equipe-projet Magnet

Haut de page

Suivez Inria