Atelier d'outils logiciels pour le langage naturel
Eric Villemonte de la Clergerie
Type :
Équipe-projet
ATOLL a été arrêté le 29 août 2007
Présentation de l’équipe
Le traitement automatique des documents en langage naturel est devenu
un enjeu essentiel, si l’on veut pouvoir utiliser efficacement les
masses énormes d’information disponible sur la planète. Ce problème
est encore renforcé par l’utilisation croissante d’Internet. Notre
équipe-projet a pour objectif de développer des outils et techniques,
théoriques ou appliqués, pour aider l’accès, le traitement et
l’utilisation des documents en langage naturel.
Axes de recherche
Analyse syntaxique : Exploration théorique et pratique de
techniques d’analyse syntaxique pour différents formalismes
grammaticaux servant au traitement de la langue naturelle. En
particulier, des techniques de tabulation sont étudiées pour mieux
gérer les ambiguïtés du langage et mise en oeuvre dans plusieurs
systèmes :
SYNTAX : ce logiciel permet la compilation de grammaires non
contextuelles (CFG), qu’elles soient déterministes ou non.
Grammaires à concaténation de chaîne (RCG) : cette hiérarchie
de grammaires introduite par Pierre Boullier permet l’exploration
efficace des formalismes grammaticaux faiblement dépendants du
contexte (MCS). Une implantation des RCG existe qui est en
particulier utilisée pour les grammaires d’arbres adjoints (TAG).
Automates à piles et programmation dynamique : cette approche
repose sur l’utilisation d’automates à piles pour la description
de diverses stratégies d’analyse et sur l’interprétation par
programmation dynamique de ces automates pour construire des
analyseurs syntaxiques tabulaires. Ces techniques sont validées
dans le cadre du système DyALog pour des formalismes grammaticaux
utilisant l’unification (DCG, Feature TAG, ...) ainsi que pour
des programmes logiques.
Infrastructure linguistique : développement d’un environnement
de travail pour les TAG s’appuyant sur des représentations XML. Il
comprend des analyseurs syntaxiques construits avec les RCG et
DyALog mais également des serveurs pour accéder aux analyseurs, aux
grammaires, et aux " forêts de dérivation " produites par les
analyseurs.
Acquisition de connaissances : Thème émergent concernant les
interactions entre " connaissance " et analyse syntaxique. Des
connaissances "sémantiques" sur les mots aident l’analyse et
inversement l’analyse syntaxique permet d’extraire ces connaissances
à partir de corpora.
Relations internationales et industrielles
Action Normalangue : cette action s’inscrit dans le cadre du programme national
Technolangue et concerne les questions de normalisation de ressources
linguistiques.
ARC "Ressource lexicales pour les TAG" [RLT] : Action de
Recherche Concertée en partenariat avec " Langue et Dialogue "
(LORIA, Nancy) et TALaNa (Université Paris 7). L’objectif principal
de cette ARC concerne l’acquisition semi-automatique de ressources
lexicales pour une grammaire TAG du français, en s’appuyant sur
l’analyse syntaxique de corpus.
ARC Génération et Inférence [GENI] : Action de Recherche
Concerté en partenariat avec Langue et Dialogue, Orpailleur
(LORIA), Lattice et ILPL (IRIT, Toulouse). Dans le cadre de cette
ARC, nous apportons une expertise sur les TAG et sommes intressés
par des aspects de sémantique lexicale.
Action FASTLING : Action INRIA-ICTII franco-portugaise entre ATOLL,
le laboratoire CENTRIA de l’Université Nouvelle de Lisbonne (UNL) et
le LIFO (université d’Orléans). Cette action prolonge une précédente
ayant permis le développement d’un analyseur du portugais utilisant
le système DyALog de l’équipe-projet ATOLL.
Action Botanique : Ce projet, en cours de montage avec les
services documentaires de l’IRD (ex ORSTOM), doit inclure une
composante analyse de corpus botaniques par des techniques
linguistiques.