Sites Inria

English version

Equipe de recherche MOSTRARE

modèles de structures arborescentes, apprentissage et extraction d'information

  • Responsable : Joachim Niehren
  • Centre(s) de recherche : CRI Lille - Nord Europe
  • Domaine : Perception, cognition, interaction
  • Thème : Représentation et traitement des données et des connaissances
  • Partenaire(s) : Université des sciences et technologies de Lille (Lille 1),CNRS,Université Charles de Gaulle (Lille 3)
  • Collaborateur(s) : Laboratoire d'informatique fondamentale de Lille (LIFL) (UMR8022)

Présentation de l'équipe

Le Web est désormais le plus grand entrepôt de données qui ait jamais existé. Cet entrepôt n'a pas de structure définie et les données sont hétérogènes et réparties. Cependant les utilisateurs veulent le considérer comme un système d'information que l'on puisse interroger facilement tout en obtenant des réponses pertinentes aux questions. Le besoin d'outils de recherche d'information et d'extraction d'information est donc essentiel. Les formats du Web évoluent avec l'apparition de XML et, peut-être l'apparition du Web sémantique.

L'objectif de l'équipe-projet est le développement de nouvelles techniques de recherche et d'extraction d'information utilisant la structure arborescente des documents. Les problèmes nouveaux que nous considérons sont :

  • la définition de modèles et d'algorithmes pour des structures arborescentes adaptés à la tâche d'extraction d'information
  • la conception d'algorithmes d'apprentissage artificiel utilisant les structures arborescentes des données et documents

Axes de recherche

  • Structures arborescentes et extraction d'information Cet axe concerne l'étude des modèles et des algorithmes pour des données et documents possédant une structure arborescente avec pour objectif la tâche d'extraction d'information. Trois axes d'étude seront privilégiés :
    • le point de vue automates permettant de définir des classes de langages d'arbres et des classes d'algorithmes ;
    • le point de vue logique dont la correspondance avec les automates est bien connu.
    • le point de vue contraintes complémentaire des deux précédents.
    Pour chacun de ces points de vue, l'objectif est de définir des classes suffisamment expressives relativement au problème d'extraction d'information tout en conservant de bonne propriétés algorithmiques. En particulier, il s'agit de développer des "tree wrappers", programmes d'extraction d'information sur des données arborescentes.
  • Algorithmes d'apprentissage à l'aide de structures arborescentes L'objectif est ici de développer de nouveaux algorithmes d'apprentissage utilisant la structure arborescente des données et documents. Des algorithmes de classification et de recherche d'information, ainsi que des algorithmes de construction de "tree wrappers" à partir d'exemples. Les techniques de combinaison de méthodes telles que le boosting, le co-training seront privilégiées.

Relations industrielles et internationales

  • Industrielle : projet de collaboration avec XRCE - Xerox Grenoble, LIXTO - Vienna
  • Institutionnelle : ACI Masse de données, AS DSTIC
  • Scientifique internationale : Université, DFKI et MPI Saarebruck ; Vienne ; Utrecht ; NAIST (Japan) ; Trêves ; Barcelone ; Iasi.

Mots-clés : Apprentissage ; automates d'arbres ; logique ; contraintes

Suivez Inria tout au long de son 50e anniversaire et au-delà !