Serge Abiteboul : Webdam, mieux cuisiner les données du Web

Mis à jour le 23/04/2020

La théorie des bases de données sur laquelle reposent les systèmes de gestion de données n’est pas adaptée au Web. Dans son projet Webdam, financé par le Conseil européen de la recherche (ERC) depuis décembre 2008, Serge Abiteboul propose de développer des fondements mathématiques adaptés avec, à la clé, une meilleure qualité de service et des performances améliorées.

« C’est en enseignant la gestion de données distribuées à l’université de Stanford, entre 1995 et 1997, que j’ai réalisé à quel point la théorie s’arrête quand la distribution commence », raconte Serge Abiteboul. Le domaine consiste alors en un ensemble de recettes de cuisine, un jeu de techniques parfois même incohérentes.

Cela n’a d’ailleurs rien d’étonnant. Tout a été très vite. En une quinzaine d’années, le Web a connu une croissance incroyable : des milliards de pages sont en ligne, accessibles à des milliards d’utilisateurs sur des millions de serveurs autonomes, qui communiquent en réseaux. Interroger, échanger, partager, mettre à jour cet océan de données conduit à gérer un ensemble d’interactions complexes et flexibles mettant en jeu des machines hétérogènes, une variété de systèmes d’exploitation, de langages. D’autant plus que depuis quelques années il faut aussi compter avec le pair-à-pair (P2P), ces communautés qui mettent en commun leurs machines pour gérer des informations. La théorie a du mal à suivre. Le web repose néanmoins sur quelques standards de qualité comme XML pour les échanges de données, RDF pour décrire la nature des données et leur sémantique, ou les services web pour permettre à des machines hétérogènes de communiquer. Mais la gestion de données reste difficile à mettre à jour et, par exemple, il est quasi impossible de vraiment supprimer une donnée publiée. Il est aussi très compliqué de contrôler que les données sont valides ou les droits d’accès bien respectés. « Dans le cadre de Webdam, nous allons tenter de créer une vision mathématique unifiée pour cet univers distribué », explique Serge Abiteboul.

La bourse de l’ERC, de 2,4 millions d’euros sur cinq ans, est une occasion unique pour relever ce défi ambitieux, avec des chercheurs français, mais en attirant aussi de brillants scientifiques d’Europe, des États-Unis ou d’ailleurs.

Son ambition : parvenir à décrire des applications de gestion de données du Web de façon plus formelle, autorisant du raisonnement automatique. Pour cela, il compte s’inspirer des logiciels de gestion de bases de données relationnelles capables de traiter d’énormes volumes de données sur un serveur centralisé. Développés depuis les années soixante, ils sont devenus la norme pour le stockage de données. Ils garantissent des conditions rigoureuses d’utilisation et de vérification. Ils sont fondés sur de sérieuses bases mathématiques, avec une logique simple qui permet de décrire et d’utiliser les données. La structure de base, le tableau à deux dimensions, n’a néanmoins rien à voir avec la structure en arbres et graphes du Web où les pages interagissent de manière complexe. Sans compter que dans le monde du Web les serveurs sont autonomes et hétérogènes. Le défi est énorme.

Gérer pour être plus réactif

Qui en profitera ? « A priori, l’utilisateur lambda ne mesurera pas, dans son utilisation quotidienne, l’ampleur de cette gestion garantie et sûre, répond Serge Abiteboul. Ce sont surtout les programmeurs qui pourront développer des applications plus facilement et être plus réactifs, un atout dans beaucoup de secteurs comme le domaine financier. » Améliorer les performances du Web devrait en outre permettre d’accompagner la croissance continue du volume de données, en particulier avec le développement des réseaux pair-à-pair. Pour ce théoricien des bases de données, ce sera aussi la garantie de pouvoir enseigner cette nouvelle technologie avec des exigences de rigueur à la hauteur d’autres disciplines, comme les mathématiques.

« Nous allons montrer l’intérêt du Web sémantique dans des applications réelles. »

Patrick Giroux , architecte chez EADS DS, est en charge de l’architecture de la plate-forme de fouille de documents multimédia développée dans le cadre du projet ANR WebContent, initié par Serge Abiteboul.

WebContent est une plate-forme logicielle qui doit faciliter le développement d’applications qui utilisent le contenu du Web. Les dix-neuf partenaires industriels et académiques développent, sur l’architecture WebLab d’EADS, les briques technologiques qui permettront de collecter, de stocker, de modifier, en un mot d’exploiter le contenu multimédia du Web, de façon cohérente, flexible et générique. L’une des quatre premières applications pilotes est la veille technologique et commerciale des Airbus. WebContent repose avant tout sur le Web sémantique, autrement dit l’échange de connaissances plutôt que de simples données. Tous les composants logiciels sont développés dans ce cadre formel auquel l’Inria a largement contribué. L’équipe GEMO fournit un service de stockage (P2P) pour tous les types d’information (documents, concepts, relations, etc.).