Prix de l’innovation Inria-Académie des sciences-Dassault Systèmes 2019 : scikit-learn

Date :
Mis à jour le 29/01/2020
1 400 contributeurs dans le monde, 42M de visites en 2018, un rang de troisième logiciel libre de machine learning le plus utilisé au monde : scikit-learn est une réussite, attestée par l’existence d’un consortium d’entreprises utilisatrices qui financent ses évolutions. Les cinq chercheurs d’Inria au cœur de l’équipe qui le porte depuis des années ont reçu le prix de l’innovation Inria-Académie des sciences-Dassault Systèmes.

Le machine learning, ou apprentissage statistique, est une technologie d’intelligence artificielle qui permet à un ordinateur « d’apprendre » sans programmation préalable, à partir de données qu’il analyse pour élaborer des lois prédictives. Ses applications sont nombreuses et variées : recommandations de produits sur Amazon, diagnostic médical, neurosciences, assurances, véhicule autonome…

Une alternative à la pénurie de data scientists

Le logiciel libre scikit-learn, soutenu et porté depuis dix ans par Inria, est précisément dédié à l’apprentissage statistique. De plus, sa conception le met à la portée d’un grand nombre d’utilisateurs, et pas seulement des experts du sujet, les data scientists.

Il est écrit en langage Python, universellement utilisé sur le Web. Il est simple à prendre en main, très bien documenté, illustré de centaines d’exemples et exploitable sur n’importe quel sujet, illustre Gaël Varoquaux, chef de projetAutrement dit, il démocratise l’apprentissage statistique.

Le chercheur, âgé de 38 ans, s’est impliqué dans l’aventure sciki-learn à partir de 2009, comme développeur et animateur de la communauté. Il pilote aujourd’hui les travaux du consortium de sept entreprises (dont Microsoft, Intel, Axa et BNP Paribas) créé en 2018 pour financer les évolutions du logiciel. Son nom et son visage – il s’exprime dans des vidéos en ligne - sont connus de milliers de data scientists, ce qui lui vaut parfois d’être abordé dans le métro pour une question technique de haut vol !

Scikit-Learn en cinq dates

  • 2007 : David Cournapeau, un étudiant en informatique français, publie son travail de thèse dans un projet de machine learning qu’il baptise scikits.learn ;
  • 2009 : Inria décide de faire renaître le projet sous le nom scikit-learn ;
  • 2011 : la communauté scikit-learn compte plusieurs centaines de membres. Certains se rassemblent en Espagne pour un premier sprint (réunion de développement) de travail en commun ;
  • 2015 : scikit-learn monte en puissance dans la recherche et l’industrie, avec plus de 100 000 utilisateurs par mois ;
  • 2018 : Inria et sept entreprises mécènes créent un consortium pour financer la maintenance et l’évolution de scikit-learn, qui enregistre 42 millions de visites dans l’année.

Coéquipiers et colauréats du prix, sont au nombre de quatre

La spirale du succès ne fait pas tourner la tête à Gaël Varoquaux.

Chef de projet, d’accord, héros, certainement pas ! Scikit-learn, comme tout projet de logiciel libre, est une démarche collaborative. Elle bénéficie des apports d’une communauté de 1 400 contributeurs, du soutien constant d’Inria et du travail de mes coéquipiers

A_Bertrand Thirion_Inria-0304-708_540_720
© Inria / Photo G. Scagnelli
Bertrand Thirion, directeur de l'équipe-projet Parietal auquel appartient Gaël Varoquaux. Il a eu un rôle décisif dans notre construction, en privilégiant une vision stratégique et en créant le cadre pour faire croître l’équipe. Il nous a incités à privilégier la vision scientifique : sa priorité, c’est de créer des outils pour la science.
A_ Loic Esteve_Inria-0304-704_540_720
© Inria / Photo G. Scagnelli
Loïc Estève a contribué au projet en combattant méticuleusement les bugs. Depuis la création du consortium, il épaule les quatre ingénieurs employés à temps plein sur la maintenance et les évolutions logicielles. Il cherche aussi à rendre scikit-learn encore plus accessible et pédagogique, pour élargir encore son utilisation.
A_Olivier_Grisel_IMG_0008_540_720
© Inria / Photo E. Invernizzi
Olivier Grisel, pour sa part, pilote au jour le jour les évolutions du code et s’attache à la convergence de ses algorithmes : « La grande force de scikit-learn, explique-t-il, est de proposer une interface de programmation homogène pour mettre en œuvre des modèles prédictifs mathématiquement très hétérogènes, exploitables dans de multiples applications scientifiques, commerciales et industrielles.»
A_ Alexandre Gramfort_Inria-0304-886_300_400
© Inria / Photo G. Scagnelli
Alexandre Gramfort participe au projet depuis son origine, même s’il a quitté l’équipe-projet Parietal pendant quelques années pour rejoindre le laboratoire de recherche de Télécom ParisTech. Sa contribution actuelle porte sur la définition des objectifs de scikit-learn et sur le conseil technique en algorithmique et calcul scientifique.

Interface homogène mais modèles hétérogènes

Gaël Varoquaux souligne aussi le rôle des entreprises du consortium, même si elles n’étaient pas concernées par le prix.

Ce sont des mécènes et non des clients. Elles considèrent que si scikit-learn apporte plus de valeur ajoutée à toute la société, elles seront gagnantes. Elles partagent leur retour d’expérience, posent des questions qui appellent des travaux de recherche, proposent des évolutions. Mais elles ne passent pas de commandes et n’exigent rien.

Créer des passerelles avec le monde de l’entreprise

Pour le chef de projet de scikit-learn, le prix de l’innovation 2019 constitue une reconnaissance majeure :

Des chercheurs que j’estime et qui travaillent sur des sujets à caractère fondamental saluent notre travail, alors qu’il est axé sur des technologies et des applications. Comme nous, ils jugent essentiel de créer des passerelles avec le monde de l’entreprise, de s’inspirer de défis sociétaux pour orienter notre travail.

S’il est devenu aujourd’hui un acteur-clé de scikit-learn, Gaël Varoquaux a commencé sa carrière de chercheur très loin de l’informatique, avec une thèse en physique quantique. Celle-ci l’amenait à manipuler des données complexes ; il a vite découvert que le sujet le passionnait. Au point d’effectuer en 2008 un virage radical : il rejoint l’équipe Parietal d’Inria, spécialisée dans l’exploitation des données issues d’images IRM du cerveau humain.

A_Gael Varoquaux_Inria-0304-682_300_400
© Inria / Photo G. Scagnelli

Gaël Varoquaux, bio express

Titulaire d’un master en physique quantique de l’École normale supérieure et d’un doctorat en physique quantique de l’Université d’Orsay, Gaël Varoquaux se passionne pendant ses études pour l’informatique et le traitement des données. En 2008, il décide de changer d’orientation et rejoint l’équipe-projet Parietal d’Inria Saclay, spécialisée dans la modélisation du cerveau pour les neurosciences. Il utilise scikit-learn pour ses travaux et s’implique dans l’animation de la communauté de développeurs. En 2018, il devient chef de projet pour le consortium scikit-learn.

Un nouveau projet : l’apprentissage statistique à partir de données « sales »

Au sein de cette équipe, il a été tour à tour contributeur de scikit-learn, animateur de la communauté, puis chef de projet. Avec la naissance du consortium, son rôle est devenu moins opérationnel et occupe à peu près 20% de son temps. 

Gaël Varoquaux, chercheur insatiable et amateur de paris risqués – passer de la physique quantique à l’informatique en était un – en profite pour explorer un nouveau domaine : l’apprentissage statistique à partir de données dites « sales », car non issues d’essais randomisés et de bases normalisées.

Je cherche à établir des modèles prédictifs à partir de sources telles que des questionnaires de patients âgés sur leurs troubles de mémoire, ou de données sur la vaccination contre l’hépatite B, les conditions de vie de certaines populations et la prévalence du cancer du foie. L’objectif est d’alimenter des politiques de santé publique en données exploitables et fiables.

Ils en parlent

Marcin Detyniecki, directeur de la R&D d’Axa

« Scikit-learn est le couteau suisse du machine learning »

« Axa compte environ 300 data scientists mais sans doute plusieurs milliers d’utilisateurs internes de scikit-learn. Cet outil unique ouvre à nos actuaires des techniques supplémentaires de prédiction du risque, nous sert à accélérer les remboursements de sinistres automobiles ou à détecter les fraudes à l’assurance. C’est le couteau suisse du machine learning ! De plus, il est open source et issu d’un organisme scientifique public. Ainsi, nous ne sommes pas soumis au bon vouloir d’un éditeur et nous bénéficions d’une totale impartialité. Dans un tel contexte, notre participation au consortium s’imposait. Nous ne pouvions pas utiliser scikit-learn sans jamais contribuer à son développement. »

Léo Dreyfus-Schmidt, directeur de la recherche de Dataiku

« Une documentation d’une qualité exceptionnelle »

« Notre startup a vu le jour en 2013 avec une offre de plate-forme collaborative de data science qui va de l’acquisition des données au déploiement des modèles prédictifs en production. Pour la partie machine learning, nous avons préféré scikit-learn au développement de notre propre solution. En effet, nous faisions déjà partie de sa communauté d’utilisateurs et cela garantissait aussi une certaine transparence des algorithmes, très appréciée de nos clients, car ils peuvent comprendre la logique des outils qu’ils manipulent. Autre atout du logiciel, sa documentation est si bien faite qu’elle permet à un novice de se former au machine learning mieux et plus vite qu’avec un cours classique. »

Sébastien Conort, chief data scientist de BNP Paribas Cardif

« Scikit-learn est notre outil de référence en machine learning »

 « Nous sommes fiers d’être membre du consortium scikit-learn et de soutenir cette bibliothèque logicielle de référence en machine learning. Largement utilisé par nos équipes de data scientists en France et dans une dizaine de pays dans le monde, cet outil de référence offre de fortes garanties de fiabilité aux modèles prédictifs conçus avec celui-ci. Scikit-learn nous aide à créer des services innovants tels que le traitement automatisé et accéléré des pièces justificatives en cas de sinistre. Il améliore des processus internes comme le dispatching des mails entrants ou le monitoring des risques. Notre objectif : automatiser 80 % de nos process d’ici à 2022. »