Sites Inria

Chaire Informatique

Isabelle Bellin - 7/03/2012

La science des données entre au Collège de France

Serge Abiteboul © Inria / Photo C. Lebedinsky © Inria / Photo C. Lebedinsky

Serge Abiteboul, directeur de recherche Inria est le troisième titulaire de la chaire « Informatique et sciences numériques » créée en 2009 pour cinq ans au Collège de France. Spécialiste des bases de données et de la gestion d’informations sur le web, sa leçon inaugurale, le 8 mars, portera sur la science des données sur la Toile avec la volonté affichée, comme ses prédécesseurs de faire connaître et reconnaître la richesse et la beauté de la science informatique.

Le premier sujet que vous abordez lors de votre leçon inaugurale concerne la connaissance qui peut émerger de la masse d’informations mises en commun sur le web. Expliquez-nous.

Serge Abiteboul :  D’une manière générale, on est en train de passer d’un web de l’information à un web des connaissances, autrement dit de commencer à tirer parti de la masse d’information disponible pour produire des connaissances, des informations qui ont du sens. L’exemple le plus connu concerne les moteurs de recherche qui utilisent un algorithme pour analyser le graphe du web, calculer la popularité des pages et proposer des réponses a priori plus pertinentes. On retrouve cette idée de rechercher du sens dans les informations collectives avec les sites de commande vidéo qui utilisent les profils des utilisateurs pour recommander des films ou encore des sites comme eBay qui permettent à la masse des acheteurs de noter les vendeurs. Idem dans le cas du crowdsourcing  qui a permis par exemple de décoder la structure d’une enzyme en s’appuyant sur un grand nombre d’internautes qui s’attaquaient au problème à travers un jeu. Les outils que l’on développe dans ces contextes reposent souvent sur des méthodes complexes d’analyse statistique sur de gros volumes d’informations souvent imprécises et dont la qualité n’est pas assurée.

Quels sont les autres sujets clés en matière de gestion d’informations sur la Toile?

S. A.  : Je pourrais en citer un autre, passionnant, un peu plus futuriste. Des bases contenant des milliards de connaissances existent déjà sur la Toile. Les nombreuses machines qui nous entourent (téléphones, ordinateurs, tablettes, etc.) peuvent comprendre, tirer parti, échanger ces connaissances. Elles sont chaque jour un peu plus capables de faire des raisonnements sur les connaissances dont elles disposent pour en déduire de nouvelles. Les machines de votre salon sauront ainsi qui passe la soirée à la maison. Elles tiendront compte des goûts et des humeurs de chacun pour choisir le film du jour, négocier la meilleure offre disponible, réserver le film et vous le proposer. Je vous laisse imaginer toutes les applications possibles avec cette « intelligence » ambiante.

Cette science des données contribuera-t-elle au débat sur l’ouverture des données publiques comme celles des administrations désormais mises en ligne ?

S. A. : La France a pris beaucoup de retard dans ce domaine. Mais on assiste à une vraie prise de conscience. Ça bouge. Les volumes de données sont souvent assez modestes ; les problèmes posés relativement génériques. Par exemple, ceux de la provenance ou de la visualisation des données ont été beaucoup étudiés en bases de données scientifiques.   Les véritables enjeux sont plus politiques que scientifiques. La science peut dire ce qui est possible et aider à le réaliser. Les citoyens et les politiques doivent décider.

L’occasion de réunir les spécialistes mondiaux

 « En relation avec mon cours, j’ai invité les meilleurs spécialistes de la gestion de l’information et des connaissances à s’exprimer lors de séminaires. Moshe Vardi (Université de Rice) et Victor Vianu (Université de Californie, San Diego) évoqueront des aspects théoriques du domaine, Anastasia Ailamaki (EPFL) des aspects liés aux systèmes, notamment la gestion de données scientifiques. La majeure partie des séminaires traitera des aspects les plus innovants des technologies de la Toile.  Seront abordés le crowdsourcing  (Tova Milo de  l’Université de Tel Aviv), l’extraction de données (Georg Gottlob de l’Université d’Oxford), la récolte de connaissances (Gerhard Weikum  de l’Institut Max-Planck), les réseaux sociaux sur la Toile (Pierre Senellart de Telecom ParisTech) et les raisonnements dans le Web sémantique (Marie-Christine Rousset de l’Université de Grenoble). Deux intervenants traiteront de problématiques d’ordre politique : les données publiques (François Bancilhon de Data Publica) et l’archivage du Web (Julien Masanès d’Internet Memory Foundation). »

Mots-clés : Serge Abiteboul Chaire Informatique Web des connaissances Web des données Collège de France

Haut de page