Sites Inria

English version

Projet européen

Laure Guion - 26/10/2012

Des métadonnées pour mieux comprendre le passé

© CNRS Photothèque / Christophe Lebedinsky

En 2014 aura lieu le centenaire de la Première Guerre Mondiale. Mais comment commémorer un tel événement avec des éléments historiques dispersés à travers toute l’Europe, sans qu’un travail exhaustif d’historiens ait pu être mis en place ? Laurent Romary nous explique avec le projet CENDARI comment les sciences du numérique peuvent apporter une solution à ce problème et servir l’ensemble des sciences humaines.

Pouvez-vous nous expliquer ce qu’est CENDARI et quel est votre objectif ?

CENDARI est un projet européen qui renforce la collaboration entre chercheurs en sciences du numérique et historiens , avec pour objectif la mise en réseau des fonds d’archives répartis sur le continent européen. Cette initiative s’intègre plus généralement dans le projet d’infrastructure DARIAH qui vise à échanger autour des méthodologies et outils au service des sciences humaines . Inria en est partie prenante car j’en suis l’un des trois co-directeurs.
CENDARI est centré sur la thématique de l’histoire, avec comme sujets la période médiévale et celle de la Première Guerre Mondiale . Pour ces deux époques, les historiens ont du mal à accéder à des données d’archives qui sont réparties un peu partout sur le territoire européen. Ils sont confrontés à deux problèmes. Tout d’abord, une très grande diversité des fonds documentaires, par exemple pour la Première Guerre Mondiale : posters, affiches, archives audio, vidéos, livres, objets, artefacts, costumes, cartes… Tous ces matériaux sont éparpillés un peu partout en Europe : en France bien sûr mais aussi en Serbie, en Pologne, en Russie…
Tout le continent européen a été impacté donc c’est un peu partout que peut se faire ce travail de mémoire. Le deuxième obstacle est l’inégalité de connaissances des fonds disponibles. On connaît très bien par exemple les archives fédérales allemandes qui ont des descriptifs très précis, quand au contraire on ne sait quasiment rien des archives en Serbie. Le point positif est que l’on peut s’inspirer de bonnes initiatives un peu partout en Europe, comme le Manuscriptorium médiéval de la Bibliothèque nationale tchèque qui est un très bon exemple, pour pouvoir les reproduire ailleurs.

Concrètement, qu’est-ce que cela apporte aux autres chercheurs ?

Archives de l'Imperial War Museum

Notre but est de mettre les sciences du numérique au service des autres sciences , ici des sciences humaines et sociales. L’idée est de permettre à un chercheur d’être connecté à l’ensemble des données européennes pour pouvoir chercher une information  sur un lieu particulier, sur une période précise, ou encore un personnage. Pour la Première Guerre Mondiale, on doit pouvoir retracer l’itinéraire d’un général russe à une certaine période, ou connaître le mode de vie des habitants d’un village autour de Verdun pendant le Chemin des Dames. On peut faire la même transposition dans la période médiévale pour comprendre comment une personne a pu se retrouver citée dans plusieurs parchemins en Europe.
Pour cela, nous combinons deux thématiques complémentaires d’Inria. De mon côté, je m’occupe de la modélisation des métadonnées associées aux archives . Un fonds documentaire n’est exploitable que s’il est décrit de façon précise, c’est ce que l’on appelle les métadonnées. Je travaille pour que ces descripteurs qui vont identifier les contenus des archives soient intégrés dans un répertoire unifié où toutes les données sont normalisées : identifier les lieux, les personnes, etc. de façon harmonisée. Là encore, deux problématiques se posent. En premier lieu, qu’est-ce que l’on décrit, à quel niveau de granularité arrive-t-on : une région, un lieu, un lieu-dit... Ensuite, comment décrire de façon harmonisée des éléments si différents ? Des standards internationaux comme le Text Encoding initiative (TEI)  ou Encoding Archival Description (EAD)  sont utilisés pour décrire par exemple une vidéo, en mettant les bonnes « balises » sur le descriptif. En exploitant cette masse d’informations et en l’intégrant dans une énorme base de données, on parviendra ainsi à une extraction automatique d’informations. Le deuxième volet du travail d’Inria, dirigé dans ce projet par Jean-Daniel Fekete de l’équipe Aviz, est la visualisation de ces informations . En effet, face à un tel nombre de données, il est essentiel de pouvoir faire une recherche intelligente dans ces éléments, de permettre par une interface intuitive de filtrer automatiquement sur une période, sur un espace, sur un événement particulier.

Comment votre travail pourra-t-il servir d’autres chercheurs en sciences humaines ?

La Commission Européenne nous a orientés sur un travail en histoire sur le Moyen-Âge et la Première Guerre Mondiale car cela nous permettait de commencer à travailler sur des exemples précis. Nous mettons les historiens dans une démarche de recherche sur le système que nous avons construit, et grâce à leurs retours nous pouvons savoir si l’interface est trop simple ou au contraire trop complexe, comment la faire évoluer, comment ils s’y retrouvent. Nous observons comment par exemple ils cherchent des corrélations de présence de deux personnes dans un même lieu, ou comment ils peuvent mettre en parallèle une décision militaire avec des actions sur le terrain. Cela nous permet d’affiner le modèle avant un élargissement, car bien sûr nos outils génériques d’exploration de fonds de données peuvent s’appliquer à d’autres périodes, et aussi à d’autres domaines en sciences humaines que l’histoire .
À l’heure actuelle,  pour les deux périodes qui nous sont confiées, nous nous concentrons sur une identification exhaustive des archives disponibles au niveau européen, un recueil maximal d’informations et un travail de standardisation optimal de ces données sur lesquelles nous testons nos méthodes. En parallèle, nous allons lancer un travail en commun avec deux autres projets liés à DARIAH, EHRI sur l’holocauste et ARIADNE sur l’archéologie. Nos méthodes de travail se rejoignent même si elles s’adressent à des communautés de recherche différentes. Comme l’intégration des données européennes dans un seul espace informationnel est un travail de longue haleine, nous souhaitons dès maintenant lancer des ponts entre nos expertises  pour ne pas attendre la finalisation de nos projets au bout des 4 ans.

"Un haut lieu de mémoire dans l'environnement numérique"

© Lorenza Tromboni

Emiliano Degl'Innocenti, spécialiste des sciences humaines dans le monde numérique, responsable du laboratoire multimédia et numérique de la Società Internazionale per lo Studio del Medioevo Latino (SISMEL, organisation internationale d'étude de la culture latine médiévale) et de la Fondazione Ezio Franceschini (FEF, fondation Ezio Franceschini)

En tant que médiéviste et historien de la philosophie, je suis fasciné par l'histoire de la mnémotechnique dans le but de gérer la quantité croissante de données et de connaissances  (impossible à gérer par un individu avec sa propre mémoire uniquement) à l'aide de moyens artificiels. La longue histoire du Moyen-Âge occidental est ponctuée de nombreuses tentatives visant à augmenter la mémoire naturelle de l'homme grâce à des systèmes de mémoire artificielle. J'ai également remarqué que nombre de nos attentes et attitudes, relatives aux informations et à l'environnement numériques dans leur ensemble, sont liées aux mêmes besoins que ceux inhérents à la gestion d'une grande quantité d'informations de plus en plus complexes.

Finalement, en tant que chercheur dans le domaine des sciences humaines numériques, je constate chaque jour, et ce depuis des années, le fossé qui sépare les différentes sciences humaines (par ex. les médiévistes) avec leurs propres traditions, contenus et attentes, des spécialistes de l'informatique. De par sa nature et ses objectifs, je pense que CENDARI est l'emplacement idéal pour développer un type de collaboration tout aussi inédit qu'efficace  entre les spécialistes des sciences humaines (historiens, archivistes, bibliothécaires, etc.) et les spécialistes de l'informatique. Depuis la phase de lancement du projet CENDARI, des spécialistes issus de disciplines informatiques et traditionnelles sont censés travailler en étroite collaboration et partager du contenu, des flux de tâches et des objectifs afin de créer une expérience totalement nouvelle pour les utilisateurs désireux d'effectuer des recherches dans l'environnement numérique. Je ne cesse de penser, en particulier pour les études médiévales, que pour modifier radicalement les méthodes de recherche, il nous faut basculer d'une ère centrée sur les bases de données à un nouveau genre de noosphère numérique. Des données davantage interopérables, l'annotation et l'intégration sémantiques avec différentes sources, la création de systèmes complexes de gestion des connaissances : un haut lieu de mémoire dans l'environnement numérique pour gérer, améliorer et préserver notre héritage culturel, avec la sensibilité des philosophes médiévaux et les outils de l'ère numérique .

Mots-clés : Laurent Romary Métadonnées Première Guerre Mondiale Moyen-Âge Histoire CENDARI Archives Saclay - Île-de-France Projet européen

Haut de page

Suivez Inria