Sites Inria

English version

Equipe de recherche ATOLL

Atelier d'outils logiciels pour le langage naturel

  • Responsable : Eric Villemonte de la clergerie
  • Centre(s) de recherche : CRI de Paris
  • Domaine : Systèmes symboliques
  • Thème : Organisation des contenus et de la langue

Présentation de l'équipe

Le traitement automatique des documents en langage naturel est devenu un enjeu essentiel, si l'on veut pouvoir utiliser efficacement les masses énormes d'information disponible sur la planète. Ce problème est encore renforcé par l'utilisation croissante d'Internet. Notre équipe-projet a pour objectif de développer des outils et techniques, théoriques ou appliqués, pour aider l'accès, le traitement et l'utilisation des documents en langage naturel.

Axes de recherche

  • Analyse syntaxique : Exploration théorique et pratique de techniques d'analyse syntaxique pour différents formalismes grammaticaux servant au traitement de la langue naturelle. En particulier, des techniques de tabulation sont étudiées pour mieux gérer les ambiguïtés du langage et mise en oeuvre dans plusieurs systèmes :

    • SYNTAX : ce logiciel permet la compilation de grammaires non contextuelles (CFG), qu'elles soient déterministes ou non.

    • Grammaires à concaténation de chaîne (RCG) : cette hiérarchie de grammaires introduite par Pierre Boullier permet l'exploration efficace des formalismes grammaticaux faiblement dépendants du contexte (MCS). Une implantation des RCG existe qui est en particulier utilisée pour les grammaires d'arbres adjoints (TAG).

    • Automates à piles et programmation dynamique : cette approche repose sur l'utilisation d'automates à piles pour la description de diverses stratégies d'analyse et sur l'interprétation par programmation dynamique de ces automates pour construire des analyseurs syntaxiques tabulaires. Ces techniques sont validées dans le cadre du système DyALog pour des formalismes grammaticaux utilisant l'unification (DCG, Feature TAG, ...) ainsi que pour des programmes logiques.

  • Infrastructure linguistique : développement d'un environnement de travail pour les TAG s'appuyant sur des représentations XML. Il comprend des analyseurs syntaxiques construits avec les RCG et DyALog mais également des serveurs pour accéder aux analyseurs, aux grammaires, et aux " forêts de dérivation " produites par les analyseurs.

  • Acquisition de connaissances: Thème émergent concernant les interactions entre " connaissance " et analyse syntaxique. Des connaissances "sémantiques" sur les mots aident l'analyse et inversement l'analyse syntaxique permet d'extraire ces connaissances à partir de corpora.

Relations industrielles et internationales

  • Action Normalangue: cette action s'inscrit dans le cadre du programme national Technolangue et concerne les questions de normalisation de ressources linguistiques.

  • ARC "Ressource lexicales pour les TAG" [RLT] : Action de Recherche Concertée en partenariat avec " Langue et Dialogue " (LORIA, Nancy) et TALaNa (Université Paris 7). L'objectif principal de cette ARC concerne l'acquisition semi-automatique de ressources lexicales pour une grammaire TAG du français, en s'appuyant sur l'analyse syntaxique de corpus.

  • ARC Génération et Inférence [GENI] : Action de Recherche Concerté en partenariat avec Langue et Dialogue, Orpailleur (LORIA), Lattice et ILPL (IRIT, Toulouse). Dans le cadre de cette ARC, nous apportons une expertise sur les TAG et sommes intressés par des aspects de sémantique lexicale.

  • Action FASTLING : Action INRIA-ICTII franco-portugaise entre ATOLL, le laboratoire CENTRIA de l'Université Nouvelle de Lisbonne (UNL) et le LIFO (université d'Orléans). Cette action prolonge une précédente ayant permis le développement d'un analyseur du portugais utilisant le système DyALog de l'équipe-projet ATOLL.

  • Action Botanique : Ce projet, en cours de montage avec les services documentaires de l'IRD (ex ORSTOM), doit inclure une composante analyse de corpus botaniques par des techniques linguistiques.

Mots-clés : Analyse syntaxique Langage naturel Linguistique Programmation dynamique Programmation logique Document électroniques

Suivez Inria