Reconnaître la parole et respecter la vie privée

Date :
Mis à jour le 08/06/2020
Emmanuel Vincent, directeur de recherche chez Inria Nancy – Grand Est, est coordinateur du projet européen COMPRISE, qui vise à développer des algorithmes de reconnaissance de la parole respectueux de la vie privée. Entretien avec un scientifique imaginant des méthodes originales afin que nos assistants vocaux ne se transforment pas à notre insu en espions.
Portrat d'Emmanuel Vincent entouré de hauts-parleurs
@ Emmanuel Vincent

La voix est douce, le timbre clair, le rythme posé et le propos résolument pédagogique. Peut-être parce qu’Emmanuel Vincent est bien placé pour comprendre l’importance d’un discours intelligible. Écouter ce chercheur, c’est découvrir comment la modélisation du signal audio associée à l’intelligence artificielle permet le développement d’applications de reconnaissance vocale. Emmanuel Vincent y contribue et y apporte l’expertise qu’il a développée avant de rejoindre en 2013 Inria Nancy – Grand Est.

Une formation alliant mathématiques et musique

Formé aux mathématiques à l’École normale supérieure, il commence à s’intéresser aux défis liés aux signaux audio avec un DEA[*] en acoustique, traitement du signal et informatique appliqués à la musique. Un diplôme qu’il obtient en 2001 à l’IRCAM* et qui prépare ses travaux de doctorat sur la séparation de sources musicales. Quoi de plus naturel pour ce scientifique, ancien élève du conservatoire et musicien accompli, que de s’intéresser à ce domaine ? « La séparation de sources permet par exemple d’identifier les contributions de différents instruments à un enregistrement musical et de restituer l’ambiance d’un concert en travaillant sur la répartition du son dans l’espace », explique le chercheur dont les connaissances musicales ont complété l’expertise scientifique. « J’ai creusé le sujet à l’occasion d’un postdoctorat à l’université Queen Mary de Londres, où j’ai également conçu une nouvelle méthode de codage audio musical à très bas débit. »

Emmanuel Vincent poursuit ses recherches chez Inria, qu’il intègre en 2006, tout d’abord au centre de Rennes – Bretagne Atlantique. Au sein de l’équipe METISS*, dont les travaux concernent le traitement des signaux audio, il commence à s’intéresser au cas particulier de la parole. Après six ans en Bretagne, il déménage en Lorraine et rejoint MULTISPEECH*. Les travaux de cette équipe, dirigée par Denis Jouvet, concernent de nombreuses facettes du traitement de la parole et de l’audio, avec une attention particulière aux aspects "multisources" (pour le traitement de conversations entre plusieurs personnes), "multilingues" (pour l’apprentissage de langues étrangères) et "multimodaux" (pour l’animation des lèvres d’un personnage). Ses recherches trouvent des applications dans la conception d’aides auditives ou d’assistants vocaux mains libres tels ceux de nos enceintes connectées ou dans la détection d’événements sonores pour déceler des effractions.

Un enjeu de cybersécurité

Emmanuel Vincent s’intéresse spécialement à la combinaison de modèles mathématiques et d’algorithmes d’intelligence artificielle, en particulier de deep learning. « Afin d’être efficaces, ces algorithmes ont besoin d’une très grande quantité de données dans la phase d’apprentissage. Or, les données de parole contiennent des informations souvent sensibles, qui en disent long sur nous-mêmes, nos préférences, nos proches, etc. », commente le chercheur. Des algorithmes malveillants (deepfakes) sont même capables de contrefaire notre voix, ce qui n’est pas sans poser de potentiels problèmes de sécurité et de liberté, individuelles et collectives.

Des algorithmes respectueux de la vie privée

« Nos recherches visent à développer des méthodes d’apprentissage préservant les données privées, par exemple en supprimant d’un discours ce qui relève du personnel pour ne conserver ce qui est vraiment utile à l’algorithme, ou en transformant la voix pour masquer l’identité du locuteur », détaille Emmanuel Vincent. L’enjeu scientifique est alors de trouver des algorithmes réalisant le meilleur apprentissage à partir du minimum d’informations possibles – et capables de tromper les méthodes de biométrie actuelles, à même de reconnaître une voix transformée !

C’est à ces défis scientifiques et techniques que se confronte le projet européen COMPRISE, dont Emmanuel Vincent est le coordinateur. Doté d’un budget de 3 millions d’euros pour trois ans (2018-2021), le projet regroupe une trentaine de chercheurs et ingénieurs autour des équipes MULTISPECH et MAGNET*, de l’université de la Sarre (Allemagne) et de quatre industriels européens spécialisés dans le développement logiciel et l’expertise juridique en traitement des données. Le projet, à fort objectif applicatif, vise à développer des assistants vocaux intéressant les développeurs d’applications mobiles, le commerce ou le secteur médical.

« Nous n’aurions pas pu décrocher ce projet sans le soutien de la direction des partenariats européens d’Inria et je ne pourrais pas le piloter efficacement sans l’aide de notre project manager Zaineb Chelly, qui assume la coordination, la gestion et la communication qu’un tel projet demande », estime Emmanuel Vincent avant de conclure : « En tant que coordinateur, j’ai la chance de pouvoir orienter les recherches dans la direction que j’ai imaginée. » Une direction donnant un sens éthique aux travaux du chercheur qui n’a qu’une parole : il est possible de concevoir des algorithmes à la fois efficaces et respectueux des utilisateurs du numérique.

 

[*] DEA : Diplôme d’études approfondies, dont l’équivalent actuel est le Master 2.

IRCAM : Institut de recherche et coordination acoustique/musique.

METISS (Modélisation et expérimentation pour le traitement des informations et des signaux sonores) était une équipe mixte de l’Université de Rennes 1, d’Inria Rennes – Bretagne Atlantique et du CNRS, dirigée par Frédéric Bimbot.

MULTISPEECH (Speech Modeling for Facilitating Oral-Based Communication) est une équipe-projet commune de l’Université de Lorraine, d’Inria – Nancy-Grand Est et du CNRS.

MAGNET (Machine Learning in Information Networks) est une équipe d’Inria Lille – Nord-Europe commune avec l’Université de Lille, et dirigée par Marc Tommasi.