Sites Inria

Communication

Radu Horaud, Christophe Castro - 27/08/2012

Les robots s’invitent à la cocktail party

Petit garçon avec robot © NAO - Aldebaran Robotics

Lors d’un cocktail, une personne dialogue avec un petit groupe. Soudain, c’est à vous qu’elle s’adresse. Vous engagez la conversation. Facile ? Des millions d’années d’évolution ont pourtant été nécessaires pour que votre cerveau adopte ce comportement social basique ! Ce problème d’attention sélective est appelé « cocktail party effect » par les psychologues. Le résoudre est un point décisif pour que des robots interagissent avec les humains.

Puissants, rapides et précis, beaucoup de robots impressionnent par leurs performances surhumaines. Mais il faut reconnaître que la plupart sont un peu « autistes », au sens où il leur manque de nombreuses compétences sociales. Des robots sociaux,  plus « conviviaux », devront tenir compte de l’environnement sonore et notamment de la parole. Certes, la reconnaissance de la parole est proposée aujourd’hui par de nombreux dispositifs, en particulier des téléphones. « Mais il suffit de placer le microphone à quelques mètres de la personne et les performances du système vont s’effondrer. Des bruits divers et la simple réverbération de la parole sur les murs de la pièce vont parasiter fortement le signal reçu par le microphone », explique Radu Horaud, responsable de l’équipe de recherche Perception, chez Inria (Grenoble), et du projet européen Humavips.

L’idée de départ du projet Humavips (Humanoids with Auditory and Visual Abilities In Populated Spaces) est d’adapter un robot à la situation « cocktail party ». Dans ce but, l’équipe se focalise sur l’analyse des signaux électriques issus des deux microphones et des deux capteurs d’images : les « oreilles » et les « yeux » du robot. Il est placé dans un lieu où se trouvent plusieurs personnes, engagées dans différentes conversations, à quelques mètres d’elles. « Il faut d’abord que le robot soit capable de voir combien de personnes sont devant lui et à quelle distance. Ensuite, il doit détecter si l’une d’elles semble lui prêter attention. Puis s’avancer vers elle afin de se placer dans une position optimale permettant d’identifier si les sons qu’elle émet lui sont destinés ou pas. Y parvenir serait un beau succès ! », poursuit Radu Horaud. 

Ces recherches se placent donc en amont de la compréhension du langage et de la conversation elle-même - ces derniers domaines étant explorés par de nombreuses équipes de recherche internationales. « Trop souvent, on assimile l’intelligence à la seule compréhension du langage. Or l’intelligence s’apparente aussi à la capacité d’extraire les informations, utiles à l’accomplissement d’une action, parmi un nombre immense d’informations inutiles. » Là où commence la sociabilité, il faut donc déjà beaucoup d’intelligence !

Les robots sociaux, enjeu européen

robot seul © Inria / Photo H. Raguet

Le projet Humavips, lancé en février 2010 pour 3 ans, entre dans le 7ème programme-cadre européen. Quatre équipes universitaires de France, République Tchèque, Suisse et Allemagne, ainsi qu’un industriel français spécialiste des robots humanoïdes, Aldebaran Robotics, sont impliqués dans ce projet. « Nous faisons le pari que les robots peuvent sortir des labos. Nous avons cette idée un peu folle : vous achetez un robot et pouvez ensuite télécharger les applis qui vous sont utiles, comme on le fait avec un ordinateur ou un smartphone : c’est ça notre modèle », explique Radu Horaud, responsable du projet Humavips. Concrètement, une plateforme open source met les résultats des recherches à disposition des chercheurs et contributeurs du monde entier. Elle s’organise autour de l’architecture du robot humanoïde NAO, industrialisé par Aldebaran Robotics.

« Il est devenu assez facile de localiser une source sonore à l’aide de 2 microphones. L’un d’eux est généralement plus proche de la source que l’autre : ceci introduit un léger décalage dans le temps entre les 2 signaux reçus. Des logiciels de traitement numérique comparent les 2 signaux, détectent le décalage, et on peut ainsi faire tourner la tête du robot vers la source (ce qui se traduit par l’annulation du décalage). De cette manière, on finit par localiser les différentes sources sonores, même lorsque deux personnes parlent en même temps, par exemple », explique Radu Horaud.

Reste une grande difficulté : « le même mot peut être véhiculé par des signaux électro-acoustiques très différents, suivant le ton propre à la voix de la personne et à ses intonations. Et le problème se complique encore si on est à distance et qu’il y a plusieurs sources sonores qui s’additionnent au signal ». Le projet Humavips va se clore en 2013 mais Radu Horaud est confiant : « on prépare déjà la suite ».

Haut de page