Sites Inria

Modèles statistiques

Françoise Breton, Florence Forbes, Zaid Harchaoui - 25/10/2012

L’apprentissage statistique de plus en plus performant

Logiciel Locus Mistis vignette © Mistis © Mistis

Les algorithmes d’apprentissage statistique sont aujourd’hui capables de fournir des outils très performants pour réaliser des tâches de reconnaissance sur de très grands ensembles de données complexes. De nombreux commerces ou services web, par exemple, utilisent aujourd’hui ces technologies pour ajuster leur offre de produits aux goûts de l’internaute ou fournir des traductions automatiques tout à fait honorables.

Témoignages de Florence Forbes,  équipe-projet Mistis et de Zaid Harchaoui , équipe-projet Lear

Jusqu’aux années quatre-vingt-dix, l’apprentissage automatique, utilisé notamment pour reconnaître des caractères ou des images, s’appuyait sur un modèle dit « génératif » de ce qu’il fallait reconnaître. Ce fut un réel changement de vision que de s’affranchir de ce type de modélisation, souvent difficile à définir mathématiquement, et de lui préférer des méthodes statistiques s’attachant plutôt à optimiser un critère de performance. Ces dernières permettent, à partir d’exemples, d’identifier des éléments communs qu’il s’agira, ensuite, de reconnaître sur de nouveaux objets.
L’approche s’est révélée très performante pour résoudre des tâches sur des données ou des phénomènes complexes, présentant une grande variabilité et susceptibles d’évoluer au cours du temps. Elle s’est particulièrement développée dans les années quatre-vingt-dix, par exemple autour du problème de la reconnaissance automatique des codes postaux manuscrits grâce aux bases de données fournies par les services postaux américains. Par la suite, de nouvelles compétitions, académiques (comme les "Pascal challenges" ) ou lancées par des entreprises pour résoudre un problème particulier, ont contribué à stimuler la recherche dans ce domaine.

De l’identification de spam au e-commerce, en passant par la bio-informatique

Inria Mistis  Perception "Détection et localisation, sur des images vidéo, d'objets mobiles émettant des sons par apprentissage non supervisé. Ici il s'agit de personnes ; celle qui parle est marquée d'un point blanc" - © Inria / Mistis - Perception

La recherche dans ce domaine a longtemps été limitée par la très faible puissance des ordinateurs car les algorithmes d’apprentissage doivent s’entraîner sur un grand nombre d’exemples pour être performants. 

Avec le développement fulgurant de l’électronique, les applications ont explosé, autant pour les services grands publics que pour les usages scientifiques. Les algorithmes d’apprentissage sont couramment employés aujourd’hui dans le domaine de la reconnaissance d’images ou de vidéos, tout comme en bio-informatique qui utilise cette approche pour estimer, à partir de bases de données des molécules connues, la fonction chimique probable d’une nouvelle molécule.

Cette approche a également été utilisée avec succès pour détecter les spams  d’après le contenu des messages, et le Web, avec ses immenses quantités de données complexes et non organisées, est un domaine d’application de choix. Les techniques statistiques permettent par exemple à des services d’e-commerce de proposer des produits selon les goûts de l’internaute, inférés par ses choix antérieurs et ceux des autres clients. Certains services en ligne, comme Deezer , permettent même d’assister en direct au processus d’apprentissage : ce service radio propose des airs similaires à la chanson choisie au départ et affine progressivement ses propositions en fonction du jugement de l’utilisateur.

Et dans 20 ans ?

Zaid Harchaoui , chercheur de l'équipe projet Lear

« J’espère que l’on arrivera un jour à développer des algorithmes capables de détecter l’information pertinente dans des jeux d’exemples extrêmement variables et avec un fort bruit de fond. Cela permettrait, par exemple, de concevoir des moyens efficaces pour interpréter l’activité électrique cérébrale et offrir ainsi à des personnes handicapées, par exemple ayant perdu l’usage de la parole, un moyen de recouvrer leur autonomie. »

Florence Forbes , responsable scientifique équipe projet Mistis

« Jusqu’à présent, les chercheurs ont développé de l’apprentissage supervisé, c’est-à-dire que les exemples fournis à l’algorithme d’apprentissage sont accompagnés d’une description textuelle très précise de ce qu’ils représentent (annotations). Le défi des prochaines années est d’arriver à faire travailler un algorithme sur un flux de données non annotées ou partiellement annotées. C’est un domaine nouveau pour lequel les aspects théoriques sont très peu développés et qui est souvent décrit comme une limite indépassable. Nous commençons à explorer les marges de cette question en soumettant des exemples dont les annotations peuvent être manquantes ou comporter des erreurs, et avec parfois l’objectif moins ambitieux de regrouper les données selon leur similarité plutôt que de les identifier. »

Mots-clés : Modèles INRIA Grenoble - Rhône-Alpes Statistique Équipe MISTIS Apprentissage Équipe Lear

Haut de page

Suivez Inria