Sites Inria

English version

Recherche

13/10/2015

Une expérience Inria de R&D dans le domaine des Humanités Numériques

Les Humanités Numériques  ("Numerical Humanities" ) sont une discipline émergente visant à l’exploitation et la dissémination de patrimoine culturel par les technologies du numérique.
Depuis une dizaine d’années, Inria développe dans son centre de Paris – Rocquencourt une étude de cas pour démontrer l’application de techniques de Linguistique Informatique ("Computational Linguistics" ) à l’exploitation et la dissémination de bibliothèques d’Héritage Culturel ("Cultural Heritage" ).

Le domaine choisi est le Sanskrit, véhicule culturel et scientifique traditionnel de l’Inde.
On y fait la démonstration d’une petite base de données encyclopédique hypertexte sous la forme d’un dictionnaire sanskrit-français informé grammaticalement, développé par Gérard Huet.
Les outils grammaticaux permettent d’engendrer les formes déclinées et conjuguées à la volée depuis les entrées du lexique, et à l’inverse de rechercher les racines et les bases à partir des formes. Ils permettent enfin d’analyser les phrases de la langue (phonétiquement, morphologiquement, sémantiquement), analyse indexant les entrées pertinentes du lexique.
Tous ces outils sont implémentés comme ensemble de services web coopérants. Un site public permet l’utilisation de ces ressources par des étudiants sanskritistes, des indologistes et indophiles, des philologues du sanskrit, des adeptes du yoga, des bouddhistes, etc. depuis 2003. À l’occasion de la 16th World Sanskrit Conference  à Bangkok en Juin 2015, une nouvelle version "hôte local" utilisable sur poste de travail individuel a été distribuée comme logiciel libre.

Une originalité de l’approche consiste en l’utilisation de programmation fonctionnelle (Ocaml) pour la gestion lexico-morphologique de la langue par une représentation innovante d’automates d’états finis (Aum). Une notion de Machine d’Eilenberg Effective a été établie par Benoît Razet dans sa thèse, donnant un cadre mathématique relationnel au logiciel Zen de Linguistique Computationnelle développé par Gérard Huet. Un segmenteur-étiqueteur du Sanskrit complet en a résulté, premier du genre.
Une interface interactive sophistiquée, permettant d’aider visuellement à l’analyse des textes, a été mise au point par Pawan Goyal, professeur à l’IIT de Kharagpur, lors de son séjour post-doctoral à Rocquencourt en 2013. L’action « Sanskrit Heritage » dirigée par Gérard Huet a été le partenaire Inria d’une équipe associée  »Sanskrit Computational Linguistics«  avec le Department of Sanskrit Studies de l’Université d’Hyderabad dirigé par Amba Kulkarni, de 2007 à 2014.
Cet effort  a initié une série de conférences  "International Symposium on Sanskrit Computational Linguistics" , dont la première édition a eu lieu à Rocquencourt en 2007.
Le logiciel "Sanskrit Heritage Engine" a été interfacé à la bibliothèque numérique "Sanskrit Library"  développée par le Pr Peter Scharf, et dont Gérard Huet est membre du directoire depuis 2012. Une bourse "Raman-Charpak" a été attribuée à S. R. Arjuna, thésard de l’université d’Hyderabad, pour un stage doctoral de 4 mois début 2015 au laboratoire de Rocquencourt afin d’adapter le logiciel à l’analyse d’expressions d’un calcul conceptuel dû à l’école Navya Nyāya.

Mots-clés : Humanités Numériques Linguistique Heritage Culturel Sanskrit Informatique

Haut de page

Suivez Inria tout au long de son 50e anniversaire et au-delà !