- Présentation
- Publications HAL
- Rapports d'activité
Equipe de recherche MOSTRARE
modèles de structures arborescentes, apprentissage et extraction d'information
- Responsable : Joachim Niehren
- Type : Équipe-projet
- Centre(s) de recherche : Lille
- Domaine : Perception, cognition, interaction
- Thème : Représentation et traitement des données et des connaissances
- Université des sciences et technologies de Lille (Lille 1), Université Charles de Gaulle (Lille 3), CNRS, Laboratoire d'informatique fondamentale de Lille (LIFL) (UMR8022)
Présentation de l'équipe
Le Web est désormais le plus grand entrepôt de données qui ait jamais existé. Cet entrepôt n'a pas de structure définie et les données sont hétérogènes et réparties. Cependant les utilisateurs veulent le considérer comme un système d'information que l'on puisse interroger facilement tout en obtenant des réponses pertinentes aux questions. Le besoin d'outils de recherche d'information et d'extraction d'information est donc essentiel. Les formats du Web évoluent avec l'apparition de XML et, peut-être l'apparition du Web sémantique.L'objectif de l'équipe-projet est le développement de nouvelles techniques de recherche et d'extraction d'information utilisant la structure arborescente des documents. Les problèmes nouveaux que nous considérons sont :
- la définition de modèles et d'algorithmes pour des structures arborescentes adaptés à la tâche d'extraction d'information
- la conception d'algorithmes d'apprentissage artificiel utilisant les structures arborescentes des données et documents
Axes de recherche
- Structures arborescentes et extraction d'information Cet axe concerne l'étude des modèles et des algorithmes pour des données et documents possédant une structure arborescente avec pour objectif la tâche d'extraction d'information. Trois axes d'étude seront privilégiés :
- le point de vue automates permettant de définir des classes de langages d'arbres et des classes d'algorithmes ;
- le point de vue logique dont la correspondance avec les automates est bien connu.
- le point de vue contraintes complémentaire des deux précédents.
- Algorithmes d'apprentissage à l'aide de structures arborescentes L'objectif est ici de développer de nouveaux algorithmes d'apprentissage utilisant la structure arborescente des données et documents. Des algorithmes de classification et de recherche d'information, ainsi que des algorithmes de construction de "tree wrappers" à partir d'exemples. Les techniques de combinaison de méthodes telles que le boosting, le co-training seront privilégiées.
Relations industrielles et internationales
- Industrielle : projet de collaboration avec XRCE - Xerox Grenoble, LIXTO - Vienna
- Institutionnelle : ACI Masse de données, AS DSTIC
- Scientifique internationale : Université, DFKI et MPI Saarebruck ; Vienne ; Utrecht ; NAIST (Japan) ; Trêves ; Barcelone ; Iasi.
Mots-clés : Apprentissage ; automates d'arbres ; logique ; contraintes
Equipes de recherche du même thème :
- AXIS - Conception, analyse et amélioration de systèmes d'informations dirigées par les usages
- DAHU - Verification en bases de données
- DREAM - Diagnostic, recommandation d'actions et modélisation
- EXMO - Echanges de connaissance structurée médiatisés par ordinateur
- GRAVITE - Visualisation et exploration interactive de graphes
- MAIA - Machine intelligente et autonome
- OAK - Optimizations and Architectures for Complex large data
- ORPAILLEUR - Représentation de connaissances, raisonnements
- SMIS - Systèmes d'informations sécurisés et mobiles
- TYREX - Types et raisonnement pour le web
- WAM - Web, adaptation et multimédia
- WIMMICS - Web-Instrumented Man-Machine Interactions, Communities and Semantics
- ZENITH - Gestion de données scientifiques
Contact
Responsable de l'équipe
Joachim Niehren
Tél: +33 3 59 57 78 48
Secrétariat
Tél: +33 3 59 57 78 38
En savoir plus
Rechercher une équipe
Par centre de recherche Inria
Inria
Inria.fr
Inria Channel

Voir aussi