Sociétés

Christophe Castro - 25/05/2012

Puis vinrent les éditeurs de données...

open data Creative commons

La liberté d’accéder à des données publiques, ou l’open data, transforme la vie citoyenne et de l’entreprise. Chacun peut consulter, commenter, croiser, enrichir ou réutiliser dans des applications ces énormes volumes d’informations. Née dans cette mouvance, la start-up Data Publica illustre l’un des nouveaux métiers qui en découlent : l’éditeur de données. Rencontre avec François Bancilhon, co-fondateur et CEO de cette PME soutenue par Inria.

Du 21 au 26 mai, c’est la Semaine européenne de l’Open Data, à Nantes. L’occasion pour de nombreux acteurs de croiser leur expérience sur les données collectées par les organismes publics. Car bien des initiatives publiques et privées se sont multipliées, depuis 2009, notamment la mise en ligne du site www.data-publica.com en 2010 et l’ouverture de la plateforme française des données publiques data.gouv.fr en 2011. Parmi les plus récentes, on peut citer les 12 finalistes du concours Dataconnexions, lancé par la mission gouvernementale Etalab. Pour sa part, la start-up Data Publica a été créée en 2011 et regroupe une dizaine de spécialistes « autour de l’idée d’éditer des données (comme d’autres éditent du logiciel), ce qui implique de réunir deux compétences. D’abord, nous devons identifier les sources d’information, donc connaitre l’ensemble des données disponibles, puis maitriser le processus d’extraction, de transformation et d’enrichissement des données brutes pour produire des données de qualité», explique François Bancilhon.

Les données ainsi produites peuvent être commercialisées - sous forme de packs ou sur mesure – pour la valeur ajoutée qu’elles contiennent et sont des objets vivants soumis à mises-à-jour régulières. Parmi les clients de Data Publica, on trouve des grandes entreprises, des PME et des collectivités locales. « Nous devons maîtriser les contenus, c’est-à-dire les sources des données, mais aussi les technologies qui permettent la qualité », poursuit François Bancilhon. Des technologies qu’il connaît bien, après avoir été chercheur à Inria et à Paris XI : « Nous avons développé initialement une coopération technique avec deux équipes de recherche à Inria, ZENITH, dirigée par Patrick Valduriez, et OAK, dirigée par Ioana Manolescu»

Ces équipes sont spécialisées dans l’analyse et la structuration de données volumineuses et complexes. « Nous sommes confrontés à des formats de données qui ne sont pas toujours adaptés à une exploitation directe. En effet, au-delà des données que l’on trouve habituellement dans l’open data, notre travail nous amène à gérer des données issues de sites Internet, de réseaux sociaux, de base de données fournies par nos clients, de bases de données commercialisées par des organismes publics ou privés, etc. Nos échanges avec Inria, sur les thèmes de la reconnaissance automatique de données structurées et celui du web sémantique, sont essentiels à notre développement » conclut François Bancilhon.

Des données ouvertes aux données liées… et vivantes

open data Creative Commons. Créé par Libby Levi pour opensource.com

Pour Jérôme Euzenat, chercheur à Inria dans l’équipe de recherche Exmo, « Les informations que l’on trouve sur le web sont peu structurées, parfois erronées, souvent évolutives et « vivantes », et il faut s’adapter à cet état de fait ». Loin de tout fatalisme, ce pragmatisme conduit à une double approche : exploiter au mieux les données existantes, mais aussi contribuer à leur structuration en amont. « Notre équipe se consacre surtout à faire que les informations disponibles sur le web soient plus facilement exploitables par les ordinateurs, conformément aux principes du web sémantique ».

Pour que les données aient plus de sens, y compris pour les machines, l’une des stratégies consiste à en faire des données liées. De cette façon, un ordinateur saura que le mot « Hollande » que vous utilisez sur votre blog est sémantiquement lié au mot « Hollande » qui désigne ce pays sur Wikipedia... et qu’il ne s’agit donc pas du président français. Le projet DataLift, auquel contribue Exmo, apporte des outils pour faciliter la production de données liées. « Beaucoup de chercheurs regrettent que les données publiées par Etalab n’exploitent pas encore suffisamment ce format pourtant utilisé par d’autres administrations internationales », observe Jérôme Euzenat.

Parmi les nouveaux challenges que se donne l’équipe Exmo, il y a la volonté de développer des stratégies pour surmonter  les conflits de représentation. Il arrive en effet fréquemment qu’une information présente une incohérence quand on compare deux sources. Si les machines sont plus aptes à les détecter, les humains sont meilleurs à s'en accommoder.

A noter enfin que Jérôme Euzenat interviendra le 5 juin lors du séminaire « Ouverture des données : technologies et usages », voué à faire se rencontrer autour du thème de l’open data les acteurs de la recherche et les industriels en Isère.

Haut de page