Sites Inria

English version

Recherche

Marine Loyen - 19/01/2016

Sémagramme : de la langue naturelle au langage informatique

Dirigée par Philippe de Groote, l’équipe Sémagramme d’Inria Nancy - Grand Est développe ses recherches dans le domaine de la linguistique computationnelle. Avec un objectif : créer des outils de traitement automatique et numérique de la langue.

Modéliser la langue naturelle

Comment permettre à un logiciel de reconnaître les relations rhétoriques le long desquelles s'articule un discours ? 

Comment lui permettre de distinguer un texte cohérent d'un texte incohérent ?

Autant de questions auxquelles l’équipe-projet Sémagramme s’efforce de répondre. Les membres de l’équipe cherchent à modéliser la langue naturelle, pour, à terme, mettre au point des logiciels capables de la comprendre et de la traiter. Si Sémagramme se concentre sur la recherche fondamentale, les résultats de ses travaux pourraient par exemple être utilisés pour concevoir des robots capables de dialoguer de manière automatique.

« Nous nous focalisons sur les aspects sémantiques du traitement de la langue, c’est-à-dire sur la compréhension du sens, explique le responsable de l’équipe, Philippe de Groote. Nos travaux portent plus particulièrement sur l’interface entre la syntaxe et la sémantique : c’est-à-dire que nous cherchons à modéliser, sous une forme logique, le lien qui existe entre la structure syntaxique d'une phrase (la forme) et sa représentation sémantique (le sens). » Cette interface peut se représenter à l’aide d’une grammaire catégorielle abstraite (Abstract Categorial Grammar, ACG) . Ce modèle mathématique, développé par l’équipe Sémagramme, permet d’exprimer les relations existant entre divers niveaux de représentation de la langue, en particulier entre le niveau syntaxique (la forme) et le niveau sémantique (le sens).

L’équipe Sémagramme s’intéresse également à la dynamicité du discours. En effet, l'interprétation de certains mots, comme les pronoms, dépend du contexte dans lequel ils sont énoncés. Une machine, comme un être humain a donc besoin de connaître ce contexte, qui évolue à mesure que les phrases s’ajoutent les unes aux autres. C’est ce que l’on appelle un phénomène dynamique. Philippe de Groote a été parmi les premiers chercheurs à  appliquer la notion de continuation (issue de la théorie des langages de programmation) à de tels phénomènes dynamiques,  afin d’améliorer l’analyse sémantique du discours.

Les travaux de l’équipe projet Sémagramme sur l’approche logique de la langue sont régulièrement présentés lors des conférences LACL (Logical Aspects of Computational Linguistics ). Cette série de conférences a été lancée à Nancy, ville où Sémagramme organisera la prochaine édition du colloque, en décembre 2016, à l’occasion de ses vingt ans.

Grew : un logiciel à l’interface entre la syntaxe et la sémantique

Philippe de Groote, responsable de l’équipe Sémagramme.

« Grew est un logiciel de réécriture de graphe. Il est issu de nos travaux sur l'interface entre syntaxe et sémantique. Nous modélisons les relations syntaxiques entre les mots, par exemple entre un verbe et son sujet, ou entre un nom et son déterminant, par un premier graphe. À partir de ce graphe, nous cherchons à en créer un autre, qui représente les relations sémantiques entre les mots de cette même phrase. Grew nous permet d’automatiser ce passage d’un graphe à l’autre par l'application systématique de règles de transformation. »

Projet SLAM : créer un outil d’aide au diagnostic de la schizophrénie

Maxime Amblard, maître de conférences à l’Université de Lorraine, dans l'équipe Sémagramme

« Je collabore avec un psychologue et un philosophe pour modéliser des entretiens entre des patients schizophrènes et leur thérapeute. En raison de leur pathologie, leur discours dysfonctionne.

Voici un exemple : dans un premier échange, le patient explique "c’est flou dans ma mémoire". Dans un second temps, il explique : "c’est flou parce que je n’y vois pas bien". Il emploie deux fois le même mot, mais avec un sens différent.

Ce type de dysfonctionnements est très intéressant. Il est typique d’un cas de schizophrénie. Les médecins disposent de batteries de tests pour diagnostiquer cette maladie, mais ils peinent à en déceler les prémices. Si nous parvenons à créer un outil de traitement automatique, nous pourrons concevoir des systèmes d’aide au diagnostic. »

Zombilingo : un jeu pour faire de la création de ressources

Bruno Guillaume, chargé de recherche Inria

« Créer des outils de traitement automatique de la langue nécessite de faire appel à du  "machine learning" : le logiciel intègre une grande quantité d’exemples pour pouvoir comprendre des mécanismes. Plus il y en a et plus l’outil est efficace ensuite. Ainsi, dans le cadre de notre travail, nous annotons les relations syntaxiques (relation sujet-verbe par exemple) entre les mots de milliers de phrases (voir image). C’est une tâche qui peut être réalisée de manière automatique mais qui doit être contrôlée par des humains.


Nous avons donc choisi de créer un jeu en ligne, gratuit et ouvert à tous. Les réponses données par les joueurs nourrissent notre base de données, avec un ensemble de mécanismes pour contrôler ces réponses. Une seconde version de Zombilingo, a été mise en ligne en janvier. »

ACGtk : un logiciel pour analyser et synthétiser des textes

Sylvain Pogodalla, chargé de recherches Inria

« Dans une grammaire, on décrit la manière dont chaque mot peut se combiner avec les autres, ainsi que son acception. Lorsqu’elle est formalisée, cette grammaire peut être utilisée par des ordinateurs soit pour calculer le sens d'une phrase ou d’un texte (analyse), soit pour générer des phrases (synthèse) à partir d'un sens à communiquer. Les grammaires catégorielles abstraites (GCA) d'une certaine classe ont la propriété de pouvoir être utilisées aussi bien pour l'une que pour l'autre de ces tâches. Le toolkit ACG (ACGtk) met en œuvre ces principes pour réaliser de l'analyse ou de la synthèse de texte de manière automatique. Le domaine d'application comprend par exemple les outils de traduction ou d’écriture de résumés. »

Mots-clés : LACL Linguistique computationnelle TAL SEMAGRAMME Zombilingo ACGtk SLAM Grew

Haut de page

Suivez Inria tout au long de son 50e anniversaire et au-delà !