Changed on 08/04/2021
Emmanuel Vincent, directeur de recherche Inria dans l’équipe Multispeech du centre de Nancy, vient de recevoir le 6 septembre le prix de l’International Speech Communication Association (ISCA) pour le meilleur article publié dans la revue Computer Speech and Language ces cinq dernières années. L’article récompensé, publié en 2013, présente les conclusions du premier défi « CHiME » sur la reconnaissance de la parole organisé en 2011 par Emmanuel et ses collègues de l’université de Sheffield.

Au sein de l’équipe Multispeech, sur quoi portent tes travaux de recherche ?

E.V : « Je travaille essentiellement sur la parole et les sons ambiants. Une des tâches qui nous intéressent, c’est de traiter des scènes sonores complexes où il y a par exemple plusieurs personnes qui parlent en même temps dans un environnement bruyant et loin du micro. Nous cherchons à nettoyer le signal pour augmenter l’intelligibilité mais aussi pour mieux l’analyser automatiquement, identifier les personnes qui parlent et reconnaître ce qu’elles disent. Nous cherchons aussi à détecter et reconnaître les sons ambiants. »

Que peux-tu nous dire sur le prix ISCA ?

E.V : « ISCA est la société savante internationale qui couvre tous les domaines de recherche sur la parole ; elle regroupe des informaticiens, des traiteurs de signal, des phonéticiens, des linguistes...

Dans ce cas présent, ce ne sont pas mes propres recherches qui sont mises à l’honneur mais une campagne d’évaluation que j’ai coorganisée avec des collègues de l’université de Sheffield, en Angleterre, et les progrès scientifiques qui en ont découlé. Cette campagne a eu un certain impact sur la communauté et est devenue une série de campagnes, dont la cinquième édition vient de se terminer.

En quelques mots, ce défi scientifique portait sur la reconnaissance de commandes vocales dans un environnement domestique bruyant à une distance de deux mètres. Les techniques de reconnaissance de la parole se sont fortement améliorées ces dernières années mais, au moment où nous avons commencé à réfléchir à cette campagne en 2010, c’était un très gros enjeu à la fois pour les scientifiques et pour des entreprises comme Google et Amazon de concevoir des technologies mains libres, et notamment dans un environnement domestique, où les bruits sont exacerbés.

Au fur et à mesure des campagnes, des progrès substantiels ont été réalisés. En 2015, nous avons fourni aux participants un logiciel au niveau de l’état de l’art qui faisait 33% d’erreurs sur les mots retranscrits dans un cas d’usage. Un an et demi plus tard, le taux d’erreur était tombé à 2% ! Ce cas d’usage est résolu et nous nous sommes tournés vers des cas plus difficiles. »

Zoom sur la cérémonie...

C’est le 6 septembre dernier, lors de la cérémonie de clôture de la conférence annuelle Interspeech qu’Emmanuel et ses collègues de l’université de Sheffield se sont vu décerner le prix ISCA du meilleur article dans Computer Speech and Language     .

En savoir plus ...