Lancement de l’initiative scikit-learn, bibliothèque logicielle de référence en machine learning

Date:
Mis à jour le 26/07/2023
Inria a le plaisir d’annoncer le lancement de l’initiative Sickit-learn, un partenariat avec des entreprises utilisatrices. Son objectif est d’intensifier le développement de cette infrastructure de référence en y ajoutant de nouvelles fonctionnalités. Scikit-learn est une bibliothèque développée en Python, un langage de programmation de haut niveau. Elle est dédiée à l’apprentissage statistique (machine learning) et peut être utilisée comme middleware, notamment pour des tâches de prédiction.
Logo scikit-learn

Dix ans de recherche

Lancé initialement en 2007 par des membres de la communauté scientifique Python, le projet scikit-learn a connu son véritable essor dans le cadre de travaux de recherche sur l’imagerie fonctionnelle du cerveau, menés au sein de l’équipe-projet Parietal d’Inria. L’équipe avait besoin d’un outil de modélisation prédictive qui s’intégrait à l’écosystème Python. Elle a alors organisé un atelier de développement participatif ouvert, avec pour objectif d’implémenter en open source des méthodes d’analyse statistique de données. Deux ans plus tard, une version stable a pu être mise en ligne.

Scikit-learn bénéficie maintenant du soutien d’une équipe importante de développeurs et développeuses basés à Paris, mais aussi à New-York, Sydney et un peu partout dans le monde. Il est dans le top 3 des logiciels de machine learning les plus populaires sur GitHub.

Des objectifs ambitieux

Des objectifs précis ont été fixés dès le départ du projet. D’une part, afin que la bibliothèque puisse être installée facilement sur différentes plates-formes, l’équipe de développement a veillé à ce qu’elle soit bien "packagée" et dans le même temps, elle a rédigé une documentation extensive sur l’utilisation de l’outil, avec des exemples concrets. D'autre part, elle a tenu à ce que toutes les méthodes implémentées soient couvertes par une série de tests automatiques qui aident à garantir sur le long terme la qualité de la base de code.

Extraire des données complexes pour prendre des décisions

Scikit-learn extrait la structure de données complexes (bases de données, textes, images) pour les classifier en utilisant des techniques statistiques.

Scikit-learn est développé en open source et est disponible sous licence BSD. Une communauté de développeurs (internes et externes à Inria) a été rapidement constituée, ce qui a permis d’accélérer le développement de l’outil et de promouvoir des applications très diverses. Un site web (scikit-learn.org), présente de façon détaillée le projet et ses applications.

Scikit-learn est par exemple utilisé par un grand nombre d’entreprises du Web pour prédire des comportements d’achat d’utilisateurs, pour proposer des recommandations de produits ou pour détecter les tendances ainsi que les comportements abusifs (fraudes, spams , etc.). Scikit-learn sert à extraire la structure de données complexes (textes, images), et à les classifier en utilisant des techniques correspondant à l’état de l’art. 

Des domaines d’application diversifiés

Un des points forts de Scikit-learn est sa généricité, qui lui assure une grande polyvalence et des domaines d’application divers et variés, tels que :

  • Lutte contre la fraude et le spam ;
  • Ciblage marketing ;
  • Prévision des comportements des utilisateurs ;
  • Optimisation des processus industriels et logistiques.

À titre d‘exemple, une utilisation grand public comme la réservation de lieux d’hébergement touristiques a impérativement besoin d’outils de machine learning comme Scikit-learn pour automatiser les tâches. Il faut faire appel à un data scientist pour comprendre les applications et les données qu’elles génèrent, afin de permettre une programmation efficace des systèmes de traitement de ces données.

En évolution permanente et continue, scikit-learn est une bibliothèque d’apprentissage statistique facile à utiliser, efficace et accessible aux non-experts en sciences des données. Au stade de l’exploration des données, l’utilisateur entre quelques lignes dans une interface interactive et peut immédiatement visualiser les résultats de sa requête.

Le consortium Scikit-learn

Pour accompagner et stimuler l’écosystème Scikit-learn, un consortium regroupant des mécènes a été créé avec le soutien de la Fondation Inria. Il doit ainsi permettre aux ingénieurs de développement d'assurer la qualité du projet et l’intégration de nouvelles contributions, ainsi que l’ajout de nouvelles fonctionnalités ambitieuses, le tout en lien et au bénéfice de sa vaste communauté d'utilisateurs et de développeurs.

Les membres du consortium (BCG GammaMicrosoftAxaBNP Paribas CardifIntelNvidia et Dataiku) et les partenaires de l’initiative sont associés en tant que soutiens et mécènes à la définition des priorités de développement et à la visibilité du projet.

Pour tout savoir de l'actualité du consortium Scikit-learn @ Fondation Inria