Sites Inria

Web

20/02/2012

WebSmatch, un environnement pour l’intégration de données du web

Nous assistons aujourd’hui sur le Web à un véritable déluge de données, avec une augmentation toujours plus rapide des quantités, volumes et variétés des sources de données accessibles en quelques clics.

Patrick Valduriez, responsable de l'équipe-projet Zenith, nous présente WebSmatch, un environnement d'outils d'intégration de données du web développé dans son équipe pour répondre à cette problématique de gestion de grandes masses de données.

La gestion des données publiques

Bien que ces sources soient relativement faciles à trouver avec un bon moteur de recherche, il est très difficile de les intégrer afin de produire de l’information de qualité, cruciale par exemple pour l’analyse de situation ou la prise de décision. Bien sûr, le Web nous offre des solutions pratiques comme les portails spécialisés dans un domaine métier, ou les comparateurs de produits ou de services. Mais nous manquons de solutions pour des sources de données de différents domaines, là où justement la valeur ajoutée de l’information intégrée peut être très forte.

Illustrons ce propos avec le contexte de l’open data  encouragé par les pouvoirs publics (par ex. data.gouv.fr en France) qui met en avant l’idée que des données produites par les organisations publiques devraient être disponibles gratuitement à tout un chacun, pour tout usage. Ainsi, par exemple, l’intégration à l’échelle d’une région de données d’émissions de dioxyde de carbone avec des données météorologiques et climatiques nous permettrait de mieux comprendre l’évolution de la pollution.

Pour répondre à ce type d’applications, il faut pouvoir intégrer des données provenant de sources très diverses, notamment des fichiers de différents formats (html, xml, excel, rdf, etc.) ainsi que des bases de données publiques, chacune avec sa propre structure. Pour cela, il faut d’abord comprendre de quoi parlent les sources, ce qui nécessite de découvrir leurs méta-données (des données qui décrivent les données). C’est facile lorsque les sources viennent avec leurs schémas, mais particulièrement difficile lorsque ces méta-données sont mélangées avec les données, comme par ex. dans des fichiers excel (très répandus dans les données publiques). Ensuite, il faut mettre en correspondance les schémas des différentes sources, par une tâche de schema matching  qui détermine les éléments de données d’une source reliés avec ceux d’une autre. Le schema matching  est difficile à cause de l’hétérogénéité structurelle (différences de formats) et sémantique (synonymes, homonymes, noms ambigus, etc.) entre données et méta-données.

WebSmatch, un environnement ouvert et flexible d'outils d'intégration de données du web

Pour répondre à ces défis, l'équipe-projet Zenith développe WebSmatch, un environnement ouvert et flexible d’outils d’intégration de données du Web. WebSmatch est accessible via des Web services, pour pouvoir être utilisé directement par leurs partenaires à partir d’un client RIA (rich internet application ). WebSmatch fournit trois services principaux : l’extraction automatique des méta-données des sources ; le schema matching ; et le regroupement (clustering ) de schémas similaires. Les domaines d’applications de WebSmatch sont évidemment très vastes, mais nous nous concentrons sur l’intégration de données scientifiques (avec nos partenaires CIRAD et INRA) ou de données publiques (avec la société Data Publica). La figure ci-dessous illustre l’utilisation de WebSmatch par Data Publica dans sa chaîne de traitement.



Figure 1. Chaîne de traitement de données publiques avec Data Publica et WebSmatch.

Illustrons l'utilisation de WebSmatch avec un exemple simple (et réel) qui consiste à croiser des données publiques provenant de 2 fichiers différents pour produire une information sous forme de graphiques. Le premier fichier (Figure 2.a) contient des données sur les émissions de CO2 par localisation (pays et/ou région géographique), le second (figure 2.b) contient les données sur l'évolution de la température mondiale sur les dernières décennies. 

Figure 2. Sources de données d’entrée -
 2(a) Emissions de CO2

Figure 2. Sources de données d’entrée -
 (b) Evolution des températures mondiales

Le but du croisement de ces données est de faire apparaître la relation entre l'évolution de la température et les émissions de CO2. WebSmatch peut détecter automatiquement les méta-données contenues dans les fichiers pour créer un jeu de données intermédiaire qui relie les données selon une colonne pivot (l’année). Ce jeu de données peut alors être exporté à un outil de visualisation pour présenter l’information sous différentes formes (Figure 3).

Figure 3. Visualisation de l’information produite
a) Graphique

Figure 3. Visualisation de l’information produite
b) Géographique

Ainsi, grâce à WebSmatch, toutes sortes de données du Web peuvent être intégrées et croisées selon des données communes, afin de produire de l’information à forte valeur ajoutée.

Mots-clés : Gestion des données WebSmatch DataPublica EPI Zenith Web INRIA Sophia Antipolis - Méditerranée

Haut de page

Suivez Inria