Reconnaissance vocale et respect de la vie privée : la voix Inria se fait entendre

Date:
Mis à jour le 26/06/2020
Peut-on conjuguer reconnaissance vocale et protection des données personnelles ? Les chercheurs en informatique d’Inria Lille ont trouvé la solution : ils conçoivent des algorithmes de machine learning préservant l’anonymat des personnes. De nouvelles applications bénéficieront de ces innovations en IA, développées dans le cadre du projet européen COMPRISE, piloté par Inria Nancy. Elles garantiront aux utilisateurs d’assistants vocaux les meilleurs services, sans se transformer à leur insu en espions numériques.
Illustration Voix-Anonyme
© Inria / Photo M. Magnin

Installés dans nos téléphones portables ou au cœur de notre salon dans une enceinte connectée, les assistants vocaux nous rendent aujourd’hui de nombreux services : appel d’un correspondant, recherche sur Internet, etc. Demain, la commande vocale concernera de multiples domaines de notre vie professionnelle ou quotidienne. Exemples : la prise de note interactive, utile à un médecin, un avocat, un étudiant ou un journaliste, ou le contrôle à distance d’objets connectés, en domotique ou en informatique.

Reconnaissance vocale : des données hautement sensibles

Ces outils comprennent le langage parlé parce qu’ils sont programmés à l’aide d’algorithmes, dits de machine learning (ou apprentissage machine), qui exploitent un nombre considérable de données : des centaines d’heures de parole pour chaque langue ! Pour l’immense majorité des applications actuelles, leurs développeurs font le choix de stocker et centraliser les données vocales dans des serveurs privés.

Or celles-ci possèdent un caractère hautement sensible ! Elles contiennent des informations potentiellement confidentielles sur nos habitudes de consommation, nos relations sociales, notre santé, etc. qui peuvent être exploitées à des fins de profilage commercial. De plus, notre voix est elle-même facilement identifiable et, en cas de faille de sécurité, pourrait être usurpée.

Le respect de la vie privée étant essentiel à la confiance des utilisateurs, l’équipe Magnet chez Inria Lille-Nord Europe travaille sur des algorithmes d’intelligence artificielle intégrant dès leur conception cette contrainte de protection des données personnelles. Marc Tommasi, professeur en informatique à l’université de Lille et responsable de Magnet, contribue aux travaux du projet européen COMPRISE, initié et piloté par Emmanuel Vincent, directeur de recherche au sein de l’équipe Multispeech (centre Inria Nancy-Grand Est).

Le projet vise à garantir le respect de la vie privée des utilisateurs des futures applications et à réduire leurs coûts de développement. Doté d’un budget de 3 millions d’euros pour trois ans (2018-2021), il regroupe une trentaine de chercheurs et ingénieurs issus des équipes Inria, de l’université de la Sarre (Allemagne) et de quatre industriels européens spécialisés dans le développement logiciel et l’expertise juridique en traitement des données. Ses applications intéressent en particulier le commerce en ligne ou le secteur médical.

Synergies entre équipes Inria

Côté Inria, COMPRISE est construit sur la complémentarité de deux équipes. « Les travaux de Multispeech concernent différents aspects du traitement de la parole, avec des applications à la reconnaissance vocale, l’apprentissage de langues étrangères ou la synthèse audiovisuelle », explique Emmanuel Vincent.

« Au sein de Magnet, nous imaginons des algorithmes de collecte et d’analyse de données respectueux de la vie privée des internautes, par exemple en limitant leur dissémination ou en les rendant anonymes », résume Marc Tommasi.

L’efficacité de la compréhension automatique d’un texte prononcé, au cœur des technologies ciblées par le projet, dépend de la variété des données sur lesquelles l’algorithme fonde son apprentissage. « Celles-ci concernent le champ linguistique employé (vocabulaire et syntaxe propres à l’oral, dans chaque langue concernée), mais aussi les caractéristiques acoustiques de la parole, comme l’intonation, l’accentuation, la tessiture ou le timbre de la voix, etc. : ce sont également ces critères acoustiques qui signent l’identité vocale d’un individu », détaille Marc Tommasi.

Des algorithmes conçus pour la protection des données personnelles

Illustration vie privée
© Inria / Photo C. Morel

Les travaux réalisés au sein de Magnet pour COMPRISE visent ainsi à développer des algorithmes d’IA capables de transcrire le contenu d’un message audio, tout en préservant l’anonymat de son émetteur et la diversité de la forme sonore. Parmi différentes options possibles, la voie jugée prometteuse par les chercheurs lillois consiste à concevoir un algorithme de transformation de la voix (voir encadré).

Les chercheurs ont mis au point des critères d’évaluation de performance de leur solution. Verdict ? « Bien que nous ne disposions pas de résultats théoriques établissant formellement la robustesse de notre algorithme, notre analyse montre que la technique proposée est en mesure de résister aux attaques mises en œuvre avec les technologies les plus avancées à ce jour, et visant à découvrir la réelle identité derrière une voix transformée », commente Marc Tommasi.

L’algorithme de transformation de voix est associé à un autre, de transformation de texte, une deuxième innovation du projet qui permet de masquer dans le contenu des messages les informations menaçant la vie privée. Il peut maintenant être transféré vers les partenaires du projet intéressés au développement de nouveaux services, par exemple pour le commerce en ligne, l’assistance à la personne ou la commande vocale.

Imaginer des techniques d’IA respectueuses de la vie privée ? Avec les résultats obtenus à ce jour, les chercheurs d’Inria engagés dans le projet COMPRISE montrent qu’ils sont en passe de tenir parole !

Penser les contraintes de vie privée dès la conception

Prendre en compte les contraintes de respect de la vie privée dès la conception d’algorithmes, cela s’appelle le Privacy by design. Pour le projet COMPRISE, les chercheurs d’Inria ont ainsi exploré, autour des travaux de thèse de Brij Mohan Lal Srivastav (doctorant de l’équipe Magnet), différentes voies répondant à cet objectif. « Nous avons par exemple combiné deux programmes d’apprentissage (des réseaux de neurones dits antagonistes), travaillant sur deux objectifs : le premier est conçu pour réussir la transcription d’un message, le second pour échouer dans l’identification de son locuteur », explique Marc Tommasi.

Séduisante, cette solution n’a cependant pas donné les garanties attendues, l’algorithme n’ayant pas, dans certains cas, permis de protéger l’identité de l’auteur d’un message. Les chercheurs ont alors orienté leurs travaux vers une autre solution : développer un algorithme de transformation de voix qui dissocie le contenu d’un message oral de l’identité réelle de son auteur. Ce programme est alors exploité afin de construire une base de données « anonyme », préservant toute la diversité nécessaire à l’efficacité des outils d’apprentissage automatique.

Plus d'informations sur le projet européen COMPRISE