Sites Inria

English version

Rencontres Inria Industrie

Équipe-projet Valda (Inria Paris) -

Explorer des masses de données texte : l'exemple des archives web

© INRIA Sophie Auvin - V comme Virtuel

Cette démonstration présentera une nouvelle approche de l'exploration d'archives web, basée sur un ensemble structuré d'informations appelé fragments web, qui sont extraits des pages HTML archivées et comment aussi capter des événements au sein de ces archives.  

Un fragment web est une partie d'une page web. Ce peut être par exemple un article de news , ou un post de blog, et il a la particularité d'être indexé par sa date d'édition (le moment où le fragment a été écrit) plutôt que sa date d'archivage (le moment où la page web parent a été collectée).

Nous avons construit un moteur de recherche au-dessus des fragments web. En se concentrant sur la date d'édition, notre moteur de recherche est capable de rechercher un ensemble spécifique d'archives avec une meilleure précision temporelle. De plus, l'application est capable de détecter et d'identifier des événements basés sur des seuils par rapport à une requête donnée. Pour la démonstration, nous utilisons un corpus d'archives web basé sur les activités électroniques de la diaspora marocaine.

Mots-clés : Archive Web Identification d'événements Exploration temporelle Fouille

Haut de page

Suivez Inria