Shadi Ibrahim, l’excellence internationale en gestion des Big Data

Mis à jour le 06/04/2023

Chercheur dans l’équipe Myriads au Centre Inria de l'Université de Rennes depuis 2013, spécialiste de la gestion des grands volumes de données, Shadi Ibrahim vient d’être nommé "membre éminent" de l’ACM, la plus importante association d’informatique au monde. Une distinction scientifique qui récompense un parcours remarquable.

Seulement 12 chercheurs en Europe distingués en 2022

L’Association for Computing Machinery (ACM) est peu connue en France en dehors de la communauté informatique. En revanche, les chercheurs du domaine savent qu’elle existe depuis 1947, compte près de 100 000 membres dans 190 pays et décerne chaque année le prix Turing, considéré comme l’officieux prix Nobel de l’informatique.

La nomination de Shadi Ibrahim comme membre éminent (distinguished member) de l’ACM est donc tout sauf anecdotique. Pour y prétendre, il faut avoir derrière soi au moins quinze ans de carrière, des travaux en informatique remarqués au niveau international et à fort impact. Il faut aussi le soutien écrit d’au moins quatre personnalités, dont deux membres de l’ACM.

C’est un grand honneur de recevoir une telle distinction, commente l’intéressé. Je l’ai appris par un mail que j’ai découvert un soir à 23 heures, et j’ai ressenti une joie immense. Rendez-vous compte : nous avons été seulement 67 chercheurs à travers le monde à devenir membres éminents en 2022, dont 12 en Europe.

Une thèse en Chine

Shadi Ibrahim s’est fait connaître de ses pairs dès sa thèse, effectuée à Wuhan (Chine), pour ses travaux sur la gestion de grands volumes de données dans le Cloud. À l’époque, des méthodes émergent pour diviser les fichiers les plus lourds en petits morceaux distribués sur de multiples serveurs ; et pour effectuer les calculs localement, sur ces mêmes serveurs, afin d’éviter de fastidieux transferts de données.

Shadi Ibrahim parvient à améliorer ces méthodes (MapReduce, Hadoop), qui sont déjà massivement adoptées par les industriels du Cloud. Il publie de nombreux articles scientifiques, qui inspireront eux-mêmes d’autres travaux et obtiendront pour certains plus d’une centaine de citations. Un début de carrière spectaculaire.

Stocker autrement des données toujours plus nombreuses

En 2011, doctorat en poche, le chercheur met le cap sur l’Europe. Il est accueilli alors comme postdoc au centre Inria de l'Université de Rennes, qui le recrute deux ans plus tard. Sur le plan scientifique, son cap n’a pas changé : il s’attache à rendre la gestion de grands volumes de données plus efficace et plus fiable, dans des contextes où elles sont réparties entre de multiples serveurs et machines de calcul distants.

Une nouvelle évolution commence à compliquer la donne : il ne s’agit plus seulement de traiter des données de taille fixe, mais aussi des flux massifs de données. Par exemple, celles générées par le système de détection des fraudes sur des opérations bancaires, ou de surveillance de réseaux informatiques face aux cyberattaques.

Projet ANR Kerstream : mieux gérer les flux de données

Shadi Ibrahim s’attaque à ce sujet avec le projet ANR KerStream, qu’il dirige de 2017 à 2022. Son objectif : dépasser les limitations des premières solutions conçues pour traiter les flux de données dans le Cloud, comme Spark, Storm ou Flink.

L’équipe du projet KerStream développe notamment de nouvelles approches de détection et de gestion des "retardataires", ces tâches qui s’exécutent moins vite que d’autres et retardent ainsi l’ensemble d’un calcul.

« Trois problèmes se posaient, explique le chercheur. Un : comment détecter les retardataires sans se tromper ? Certaines tâches prennent plus de temps juste parce qu’elles sont plus complexes. Deux : face à un retardataire avéré, à quel serveur renvoyer la tâche pour qu’elle soit exécutée au plus vite ? Trois : comment optimiser cette répartition des tâches pour consommer le moins d’énergie possible ? »

En cinq ans, KerStream donne naissance à plusieurs approches et prototypes innovants, publiés et mis en libre accès. Pour Shadi Ibrahim, l’aventure est marquante : « Nous avons relevé de beaux challenges techniques et écrit de nombreux articles. Pour les jeunes chercheurs de l’équipe, ce projet a été le tremplin qui a lancé leur carrière. Pour ma part, j’ai apprécié de bénéficier d’une telle indépendance pour défricher un sujet. »

Big Data sur le Cloud : une collaboration avec OVH

Toujours autour du Big Data, Shadi Ibrahim engage en 2021 et 2022 des collaborations avec deux acteurs industriels du Cloud, OVH – qu’on ne présente plus – et la startup Hive^{^[1]}. L’objectif : trouver des solutions pour absorber la croissance des volumes de données sans augmenter le nombre de serveurs à l’infini. D’autant que l’usage est de dupliquer ces données par prudence !

La piste explorée par le chercheur, en collaboration avec un doctorant ? Miser sur les "codes d’effacement", une technique qui sauvegarde des fichiers sous une forme moins volumineuse que l’original. Pour un fichier de volume 100, les sauvegardes occupent par exemple un volume 50 ; c’est plus économique qu’une duplication simple (+ 100% d’encombrement) ou multiple.

« Les opérateurs du Cloud sont très intéressés, mais il reste des difficultés à résoudre, précise Shadi Ibrahim. Encoder et décoder des fichiers consomme beaucoup de capacité de calcul. De même, reconstituer un fichier perdu à partir de ses copies de sauvegarde implique de lire et de transférer nombre de données. Il faut tirer parti des codes d’effacement tout en minimisant ces inconvénients. »

Big Data et HPC : convergence à l’horizon

Jamais à court d’idées, le nouveau membre éminent de l’ACM a travaillé aussi sur la convergence annoncée entre applications de Big Data et calcul haute performance (HPC). « Les volumes de données à traiter enflent tellement qu’il faudra bientôt des supercalculateurs pour les traiter. Ce qui pose à nouveau des problèmes de stockage, de temps d’accès à ces données, d’interférences entre les centaines de milliers de requêtes qui peuvent être lancées en même temps, etc. »

Shadi Ibrahim cherche la solution du côté de la programmation de couches de stockage intermédiaires (burst buffers) entre capacités de calcul et stockages des données. Des travaux qui pourraient influer sur le futur déploiement des calculateurs dits "exascales", capables d’effectuer un milliard de milliards d’opérations à la seconde ; et qui ont renforcé les collaborations scientifiques d’Inria avec deux prestigieux laboratoires américains, Argonne National Laboratory (ANL) et Lawrence Berkeley National Laboratory (LBNL).

^{^[1]} à ne pas confondre avec le réseau international de cybercriminalité du même nom.

Son parcours en cinq dates

2011 : doctorat en informatique de Huazhong University of Science and Technology (Chine) ;
2013 : recruté comme chercheur dans l’équipe KerData du Centre Inria de l'Université de Rennes ;
2017 : responsable du projet ANR Kerstream sur le traitement de flux de données massifs dans le Cloud ;
2020 : titulaire du prix IEEE TCSC d’excellence (Middle Career Researcher) en calcul évolutif ;
2022 : nommé membre éminent de l’Association for Computing Machinery (ACM).

En savoir plus

Hive s'associe avec l'Inria pour lancer une offre de cloud souverain, Le Monde informatique, 29/11/2022.

Numérique et environnement

Vers une sobriété numérique : retour sur la présence d'Inria à l’OVHcloud Ecosystem Experience

Un intergiciel post-Hadoop pour gérer les flux de données

Voir toutes les actualités