Sites Inria

Reconnaissance vocale

Isabelle Bellin - 2/10/2012

Les techniques de reconnaissance vocale permettront-elles un jour de donner une empreinte vocale ?

Defis Scientifiques Articulographe

On cherche depuis longtemps à confondre ou disculper des accusés via l’enregistrement de leur voix. Malgré les progrès considérables en modélisation de la parole, on est néanmoins très loin de pouvoir identifier avec certitude des voix. Yves Laprie, responsable de l’équipe-projet  Parole (Inria Nancy - Grand Est) fait le point sur les techniques de reconnaissance vocale, leurs utilisations et les recherches de son équipe. 

Où en est-on en matière de reconnaissance vocale?

Le principal domaine d’application concerne la reconnaissance automatique de la parole. Les premiers systèmes datent de la fin des années 1970. C’est aussi à cette époque que les recherches se sont multipliées. Une des premières applications concerne la dictée, toujours très utilisée dans certaines professions. Mais c’est l’application la plus récente qui est la plus célèbre : il s’agit du système Siri qui permet aux iPhone de répondre à des questions formulées à haute voix. Preuve que les techniques de reconnaissance automatique de la parole ont considérablement progressé en 40 ans, même si c’est encore loin d’être parfait. Parallèlement, les recherches sur l’identification de la voix ont aussi bien avancé mais le taux d’erreur reste de l’ordre de quelques pourcents dans le meilleur des cas, inacceptable notamment en matière judiciaire (voir encadré).

Comment modélise-t-on la parole ?

Principalement par modélisation statistique à partir d’une base de données de parole, une technique postulée au début des années 1980. En pratique, on enregistre maintenant plusieurs milliers d’heures de parole de centaines voire de milliers de locuteurs dans une langue, à la radio ou au téléphone. Cette énorme base de données est annotée, c'est-à-dire transcrite dans la langue étudiée, par exemple en français. On utilise ensuite un système de reconnaissance de la parole pour la découper en sons afin de réaliser un nouvel apprentissage, de meilleure qualité. Chaque son est représenté sous la forme d’un automate caractérisé par la probabilité d’un état en fonction des états précédents et la  probabilité d’émission d’un vecteur acoustique, sorte d’image acoustique de 20 à 30 millisecondes de signal sonore. Grâce aux capacités de stockage et à la puissance des ordinateurs qui ont démultiplié les possibilités de traitement numérique, ces approches statistiques sont de plus en plus correctes.

De telles modélisations sont-elles utilisables pour identifier une voix ?

Absolument pas. Comme on le voit la qualité de la base de données conditionne très fortement les résultats. Dès que les conditions de prise de son s’éloignent de celles utilisées pour enregistrer la base de données, les résultats se dégradent très fortement.  Par exemple le système Siri a été paramétré sur des voix enregistrées par téléphone, proches des conditions d’utilisation de l’application. Un enregistrement d’aujourd’hui comparé à de vieux enregistrements serait donc inexploitable. Qui plus est, ces techniques sont inutilisables avec de courts enregistrements. D’ailleurs, de nombreuses campagnes  d’évaluation ont été menées depuis les années 1990 pour utiliser la voix comme information biométrique, au même titre que l’empreinte digitale ou l’iris : elles se sont toutes soldées par un échec. Alors même que le locuteur était coopératif.

D’autres techniques permettront-elles un jour de définir une empreinte vocale, unique ?

Peut-être mais sans doute plutôt avec une autre technique - la modélisation physique de la parole - et probablement pas avant 10 ou 20 ans. Cette technique, basée sur la modélisation géométrique du conduit vocal en trois dimensions (mesuré par exemple par Imagerie par résonnance magnétique (IRM)) couplé à un modèle biomécanique de la langue, est de plus en plus étudiée. Elle permettrait peut-être d’identifier les particularités d’articulation et de prononciation de chacun, en tirant parti des puissances de calcul désormais disponibles. Mais beaucoup de difficultés restent à résoudre notamment quant à la pertinence des données du conduit vocal à retenir et à la complexité des algorithmes de biomécanique

Sur quoi travaille l’équipe Parole ?

Sur la reconnaissance de la parole et la traduction, par exemple pour l’apprentissage des langues en identifiant avec des modèles statistiques les problèmes de prononciation et d’intonation de personnes qui ne s’expriment pas dans leur langue maternelle. Nous travaillons aussi sur la traduction automatique à partir de bases de données et de modèles de langage. Ou encore sur la transcription de journaux diffusés sur la radio ou la TV, une technique efficace pour archiver et rechercher des documents, y compris à partir de noms propres. Une partie de l’équipe travaille par ailleurs sur « l’inversion acoustique-articulatoire » pour chercher à retrouver la forme du conduit vocal et de l’articulation d’un locuteur à partir de son enregistrement. Une solution dans l’apprentissage des langues pour montrer à l’élève comment articuler pour prononcer le son recherché ou en couplant cette synthèse vocale avec une image synchrone du visage pour avoir des systèmes plus réalistes.

Identifier la voix du corbeau ?

28 ans après l’assassinat du petit Grégory, une nouvelle expertise basée sur la reconnaissance vocale a été récemment ordonnée. Les enregistrements des voix du corbeau et celles des différents protagonistes de l'affaire telles qu'elles ont été recueillies par les journalistes de l'époque à la radio ou à la télévision, seraient comparées. Les gendarmes de l'Institut de recherche criminelle de la gendarmerie nationale (IRCGN) considèrent que « que l'expertise peut être tentée malgré les difficultés de faisabilité  ».  L'IRCGN aurait fait savoir que cela pouvait donner des résultats exploitables, selon l’avocat des parents Villemin, maître Thierry Moser. « Cela me parait hautement improbable, rétorque Yves Laprie. Les techniques de reconnaissance vocale, même si elles ont beaucoup progressé, manquent toujours de fiabilité. Et compte tenu de la mauvaise qualité de ces vieux  enregistrements, de l’impossibilité de réenregistrer les protagonistes encore vivants à l’identique notamment à cause du  vieillissement, une telle identification est encore plus douteuse. Pour l’heure, de telles expertises ne me paraissent pas raisonnables dans un contexte judiciaire  » conclue-t-il.

Mots-clés : Centre de recherche Inria Nancy - Grand Est Reconnaissance vocale Yves Laprie Equipe Parole

Haut de page

Suivez Inria tout au long de son 50e anniversaire et au-delà !