Portraits / Personnages-clés

Ioana Manolescu, pour des données accessibles et exploitables par tous

Date:
Mis à jour le 14/04/2021
Exploiter efficacement des milliards de données pour les rendre compréhensibles, intéressantes, et exploitables par tous, même les moins avertis, c'est l'ambition d'Ioana Manolescu, directrice de l’équipe de recherche Cedar, commune à Inria et à l’École polytechnique. La chercheuse dévoile son parcours au travers de trois questions.
Ioana Manolescu
© Inria / Photo S. Erôme - Signatures

Comment êtes-vous arrivée dans le milieu de la recherche ?

Je viens d'une famille de scientifiques, dans laquelle on se spécialise dans les télécommunications ferroviaires, les centrales hydroélectriques, la physique, ou encore les maths avec option informatique ; je ne suis que le deuxième docteur en sciences dans la famille !

Ses débuts : Ioana Manolescu a commencé des études d'ingénieur informaticien à l'Université Politehnica de Bucarest, Roumanie. En 1996, elle est arrivée en France en tant qu'élève étranger de l'ENS Paris, titulaire d'une bourse cofinancée par le ministère des Affaires étrangères et la Fondation George Soros.

Le saviez vous ? Après un séjour postdoctoral à Politecnico di Milano (Italie), Ioana rejoint l'équipe Gemo dirigée par Serge Abiteboul à Inria Futurs, puis Saclay, étant de la toute première promotions de chercheurs recrutés en vue de la création des trois "nouveaux" centres.

À mon arrivée en France, à l'ENS Paris, je découvre des collègues investis avec bonheur dans des études qui les passionnent - comme les collègues que j'avais quittés au département d'Informatique et Automatique de l'Université polytechnique de Bucarest. Toutefois, le spectre des disciplines informatiques proposées à l'ENS à l'époque était assez étroit. J'ai rencontré la recherche en bases de données à Inria, lors d'un stage M1 dans l'équipe RODIN à Rocquencourt (dans l'équipe de Patrick Valduriez), au printemps 1997. J'ai adoré : le fait de pouvoir creuser un seul sujet à temps plein ; le mélange de théorie et d'expérimentation ; la bienveillance et l'atmosphère de l'équipe, très internationale. J'ai aussitôt su que j'allais vouloir revenir !

Quels sont vos axes de travail, aujourd'hui ?

J'ai toujours travaillé sur plusieurs projets à la fois ; je n'arrive pas à être productive sur une seule piste... Ces jours-ci, la plupart de mes travaux visent à rendre les données compréhensibles, intéressantes, et exploitables - efficacement, bien sûr, car le volume des données ne fait que grandir, l'efficacité des algorithmes est donc cruciale. Mon projet principal actuellement, SourcesSay, vise à faire parler les données - n'importe quelles données, de tout modèle et de toute provenance - en les interconnectant dans un graphe, ou réseau. SourcesSay est financé par l'ANR et la DGA, et nous fait collaborer avec des journalistes du Monde ainsi qu'avec WeDoData, une agence/studio de "dataviz". Sur ce projet, la collaboration d'Angelos Anadiotis et de Oana Balalau, mes collègues dans CEDAR, est très précieuse.

Un autre projet qui vise à faire parler les données est une collaboration avec ma collègue Yanlei Diao : il s'agit de découvrir automatiquement, dans des grands graphes de données, les questions statistiques dont les résultats sont intéressants, ou surprenants. C'est une nouvelle façon d'explorer les données, proposant aux utilisateurs des pistes ou questions à approfondir.

Quels sont vos objectifs/ambitions à long terme ?

Ce que je trouve important à atteindre, à long terme, est l'accessibilité et l'utilisabilité universelle de données. L'humanité génère des données depuis toujours, et ces données sont numériques dans une proportion qui ne cesse de grandir, depuis environ 70 ans.

Les premiers systèmes de bases de données ont été des logiciels spécialisés et un peu ésotériques. Des données étaient produites dans le bon format, stockées dans le bon système et utilisées pour la bonne application, pendant des dizaines d'années. Mettre en place, puis exploiter un tel système fait partie du bagage "de base" d'un étudiant en informatique de nos jours. Mais les données se diversifient, se multiplient, elles sont hétérogènes ; les processus de partage et réutilisation des données "explosent", s'atomisent, et ne sont plus, loin s'en faut, réservés aux experts.

Nous devons rendre facile l'usage de données même à des utilisateurs non experts ; nous devons aussi faciliter la tâche de comprendre ce qu'un jeu de données renferme, s'il est intéressant ou non pour un certain besoin. Enfin, nous devons rendre les données interopérables, vraiment, et aujourd'hui, même si les données ne suivent pas les "meilleures pratiques" recommandées par les spécialistes. La plupart des données ouvertes sur Internet, ou encore la plupart des données accessible aux journalistes et aux citoyens sont dans ce cas.

Aujourd'hui, rendre toute donnée accessible, intelligible et utilisable demande de revoir une conception figée, par "silos", de la gestion de données, pour construire des outils flexibles et efficaces. La démocratie se base sur des choix, qui sont informés à la fois par des valeurs, et par les données. Les données doivent pouvoir parler à toutes et tous !

Directrice de recherche depuis 2020, Ioana Manolescu est responsable successivement de l'équipe LEO puis CEDAR, qui, depuis 2016, fait partie du LIX, le laboratoire de recherche en informatique de l'École polytechnique. Ses domaines de recherche gravitent autour de la gestion de grands volumes de données complexes et hétérogènes, notamment appliquée au journalisme de données et à la vérification journalistique. Elle travaille aussi sur des architectures hybrides ("polystore") pour l'intégration de grands volumes de données et sur l'analyse de graphes du Web sémantique. Elle a cosigné plus de 150 publications dans des conférences et revues nationales et internationales, et est coauteure de deux livres, "Web Data Management" et "RDF Data Management in the Cloud". Membre du comité de pilotage de PVLDB, le journal international de référence dans le domaine de la gestion de grands volumes données, elle a présidé les comités de programme et/ou des conférences telles qu'EDBT, ICDE, SSDBM ou ICWE.