Sites Inria

Equipe de recherche SEQUEL

Sequential Learning

Présentation de l'équipe

De nombreux systèmes artificiels traitent des données qu'ils obtiennent petit à petit, au cours du temps. Par exemple, ces données peuvent être des pages web qui sont créées, modifiées ou disparaissent du web ; ce peut être des mesures de capteurs au fil du temps, mesurées par un système passif, ou par un système actif agissant en retour sur son environnement (agent logiciel ou robot matériel). À partir de ces données, ces systèmes extraient des informations, ces informations pouvant être utilisées pour détecter des objets (problème de classification), pour estimer les paramètres d'un processus (problème d'estimation), pour interagir avec son environnement (problème de décision séquentielle). Parfois aussi, le volume de données est tellement important que l'on ne peut que se résoudre à le traiter en le découpant en morceaux que l'on traite en séquence. Dans tous les cas, on souhaite qu'à chaque instant, le système artificiel soit capable de fournir une réponse adéquate. Typiquement, l'environnement dans lequel le système est situé est stochastique et il peut être non stationnaire.

L'objectif de l'équipe-projet est le développement de concepts et d'algorithmes permettant de traiter efficacement cette problématique et de manière fiable en évaluant la qualité de la réponse fournie par le système.

Les applications visées sont potentiellement nombreuses ; actuellement, nous travaillons en particulier sur les systèmes de recommendation. Nous avons également une forte contribution sur le jeu de Go avec le programme Crazy Stone qui a remporté de nombreux prix.

Axes de recherche

  • apprentissage séquentiel
  • prise de décision dans l'incertain
  • problèmes de bandits ; dilemme exploration/exploitation
  • apprentissage par renforcement

Relations industrielles et internationales

  • industrielle : France Telecom/Oranges Labs, Intel, Nuukik, ...
  • scientifique : Carnegie-Mellon University, U. Alberta (Canada), U. Mc Gill (Canada), U. Waterloo (Canada), U. Leoben (Autriche), LIP 6, ...

Mots-clés : Apprentissage automatique Apprentissage par renforcement Prise de décision dans l'incertain Bandits Méthodes de Monte Carlo Apprentissage statistique Méthodes à noyaux