Une bibliothèque pour créer des graphes de connaissances synthétiques

Mis à jour le 25/04/2024

L’informatique en général et l’intelligence artificielle en particulier requièrent de gros volumes de données de test. Plusieurs chercheurs du centre Inria d'Université Côte d'Azur et de l'Université de Lorraine viennent de s'associer pour créer PyGraft : cette bibliothèque open source propose des outils permettant de générer des graphes de connaissances entièrement personnalisables et synthétiques.

Un défi : générer des jeux de données abstraits et synthétiques

De plus en plus de graphes de connaissances (aussi appelés « knowledge graphs ») sont utilisés par les experts du machine learning, de l'intelligence artificielle, du web sémantique ou même des ontologies (la modélisation du vocabulaire et des connaissances sur un sujet donné) afin de modéliser, de visualiser et d'analyser les liens qui unissent les éléments d’un domaine et leurs descriptions au sein d’un système d’information.

« Mais les spécialistes n'ont pas toujours sous la main les données qui pourraient leur permettre de travailler sur des méthodes de traitement de ces graphes de connaissances, à partir de caractéristiques qu'ils auraient déjà calculées ou souhaiteraient avoir, par exemple parce que ces données sont privées ou parce qu'elles n'existent pas, explique Pierre Monnin, chercheur en intelligence artificielle au sein de l'équipe-projet Wimmics du centre Inria d'Université Côte d'Azur, équipe-projet commune à Inria et au laboratoire I3S (CNRS, UniCA). « Notre idée avec la librairie open source PyGraft est donc de leur fournir un moyen de créer des jeux de données abstraits et synthétiques correspondant parfaitement aux caractéristiques attendues. Par exemple, en les aidant à créer des jeux de données publics qui ressemblent exactement à des données privées ».

Enrichir les données avec des constructions logiques

Pourquoi est-ce important ? « Avec PyGraft, dont la première version a été développée par Nicolas Hubert, doctorant à l'université de Lorraine, il est possible de faire de nouvelles études, par exemple dans le cadre de l'IA neuro-symbolique », explique le chercheur, qui a obtenus sa thèse au Loria de Nancy (CNRS, Inria, Université de Lorraine). L'intelligence artificielle neuro-symbolique, que certains présentent comme la troisième vague de l'IA, combine l'apprentissage (notamment au travers des réseaux de neurones) et des méthodes symboliques (par exemple une reproduction du raisonnement humain, effectuée à l'aide de symboles et de règles déductives comme "Mon réfrigérateur est vide + J'ai faim = Je dois aller faire des courses"). Avec PyGraft, même si vous n'avez pas de jeu de données à disposition, vous disposez d'un générateur de données synthétiques et personnalisables, qui vous aidera à expérimenter avec des constructions logiques de ce type. »

Identifier de nouveaux besoins et cas d'usage

La bibliothèque est disponible en téléchargement gratuit sur la plateforme GitHub, depuis septembre 2023. Elle a été conçue pour pouvoir être utilisée sur un ordinateur ou un serveur et a été développée en Python, un langage de programmation qui a l'avantage d'être très utilisé pour l'apprentissage automatique et l'intelligence artificielle.

PyGraft, très intuitive dans son mode de fonctionnement, génère des données qui s'intègrent facilement avec les autres flux de travail. Elle a ainsi suscité l'intérêt du public dès sa mise en ligne, notamment auprès de spécialistes de l'intelligence artificielle (IA) ou du Big Data, en France ou à l'étranger. « Nous sommes contactés par des utilisateurs et nous pensons que certains l'utilisent déjà pour générer des jeux de données abstraites pour leur permettre de tester les méthodes de machine learning ou d'intelligence artificielle sur lesquelles ils travaillent ou de vérifier comment elles se comportent avec de plus grands jeux de données », précise Pierre Monnin. « La mise à disposition de cette bibliothèque en open source devrait nous aider à fédérer une communauté de contributeurs. Nous pourrons aussi identifier les besoins émergents au sein des communautés de chercheurs et data scientists qui utilisent des graphes de connaissances. »

D’ores et déjà le travail de l’équipe se voit reconnu : la première publication académique sur PyGraft a été sélectionnée pour être présentée lors de la conférence ESWC 2024, l'une des conférences les plus importantes du domaine du web sémantique, qui se tiendra en Grèce du 26 au 30 mai 2024.

En savoir plus sur PyGraft

Une autre intelligence artificielle avec l’apprentissage sur graphes, Inria, 11/05/2023.
Dessine-moi un graphe de connaissances !, Binaire, 5/10/2021.
PyGraft : tout savoir sur le nouvel outil Python open source pour la DataViz, lebigdata.fr, 19/9/2023.

Quelques exemples d’applications de PyGraft

Expérimenter des approches neuro-symboliques combinant graphes de connaissances et méthodes de machine learning
Tester le passage à l’échelle de méthodes de traitement sur des graphes de différentes tailles
Créer des jeux de données synthétiques publics ressemblant à des données réelles privées (par exemple en médecine ou en éducation)

Contact

Pierre Monnin

Junior Fellow in AI

Centre Inria d'Université Côte d'Azur - 2004, route des Lucioles , 06560 Valbonne Sophia Antipolis

Équipe Wimmics