Vers un système d’interaction vocale multilingue, simple et sécurisé

Mis à jour le 25/03/2020

À travers le projet européen COMPRISE (COst-effective, Multilingual, PRIvacy-driven voice-enabled SErvices) , Inria et ses partenaires européens comptent mettre au point une technologie d’interaction vocale d'un genre nouveau. Envisagée comme un outil numérique facilement intégrable à de multiples applications, celle-ci respectera également les données privées de chaque utilisateur.

Cela fait maintenant plusieurs années que les Gafam¹ont investi le secteur de la commande vocale. Dans ce domaine,les modèles d'enceintes connectées Google Home et Amazon Echo se taillent une large part d'un marché en pleine croissance. Qu'il s'agisse de passer un coup de téléphone, lancer la préparation du café ou faire ses courses sur Internet, ces assistants numériques permettent d'accomplir tout un ensemble de tâches quotidiennes par simple interaction vocale.

En l'état actuel, cette technologie présente toutefois des risques pour la vie privée des utilisateurs.
« Ces systèmes fonctionnent par apprentissage automatique et donc nécessitent de collecter la voix des usagers afin d'améliorer constamment leur performance. Ces données sont ensuite stockées dans le Cloud et souvent exploitées à des fins de profilage commercial. En cas de faille de sécurité, elles pourraient même être utilisées par des pirates pour usurper l’identité des utilisateurs », explique Emmanuel Vincent, directeur de recherche Inria au sein de l’équipe Multispeech²et coordinateur du projet COMPRISE.

Ce consortium, qui regroupe des équipes de recherche et des industriels issus de quatre pays européens³, a été créé fin 2018 pour développer un système d’interaction vocale multilingue à la fois plus sûr et plus simple d'utilisation. Reposant sur la notion d’apprentissage profond, leur démarche vise à concevoir un système de dialogue humain-machine à travers un langage naturel plus élaboré.

Faciliter l’usage de l’interaction vocale pour les développeurs

Disposant d'un budget de 3,2 millions d'euros sur trois ans, cette collaboration européenne s'est notamment fixé pour objectif de concevoir puis assembler les différentes fonctionnalités de traitement automatique de la voix. « Il s'agit de mettre au point une suite logicielle réunissant un ensemble de fonctionnalités allant de la transformation de la voix en texte, à la gestion du dialogue, en passant par la compréhension et la génération du langage naturel », détaille Emmanuel Vincent. Grâce au savoir-faire du partenaire allemand Ascora, cette suite logicielle sera facilement intégrable par des vendeurs de logiciels tiers au sein de multiples applications commandées par la voix. Ces dernières pourront alors être téléchargées par l'utilisateur sur son smartphone, sa tablette ou son enceinte connectée. Une autre limitation des systèmes d'assistance vocale actuels concerne leur faible performance voire leur indisponibilité dans les langues disposant d'un nombre de locuteurs plus limité. En intégrant la traduction automatique à sa suite logicielle, COMPRISE offrira en outre la possibilité à un usager de dialoguer avec une application disponible dans une autre langue que la sienne.

Renforcer la cybersécurité

Un volet important du projet concerne la préservation des informations privées des utilisateurs et des entreprises. Dans ce domaine, COMPRISE vise à développer un prototype de plate-forme sécurisée de collecte et de gestion des données vocales. Conçue avec l'aide de l'entreprise lettone Tilde, également membre du consortium, cette plate-forme numérique recueillera uniquement des données de nature générique afin d’améliorer les fonctionnalités de la suite logicielle. Ainsi, les données vocales relevant de la sphère privée ne quitteront pas le terminal de l'utilisateur. Avant de transmettre les informations à la plate-forme numérique, la voix de l'usager sera par ailleurs modifiée pour empêcher son identification.
Il en va de même du risque d'espionnage industriel comme l'illustre le coordinateur du projet: « Pour une entreprise de la grande distribution qui souhaite par exemple doter le site web de son service " drive" d'un système de commande vocale, il y a aujourd'hui un risque d'espionnage industriel de la part de la société qui fournit ce service. » Afin de limiter ce risque au maximum, COMPRISE entend développer un démonstrateur de type "drive" (voir encadré) avec l'aide de la startup française Netfective Technology , par ailleurs partenaire du projet.

Quand le commerce en ligne prend la parole

En s’appuyant sur les résultats du projet COMPRISE , Netfective Technology veut mettre au point une plate-forme de démonstration d'un service de type "drive" disponible dans au moins deux langues européennes, comme le français et le portugais. Objectif de la démarche : fournir de nouvelles fonctionnalités vocales aux clients tout en garantissant un haut niveau de confidentialité et de protection des données à caractère personnel.
Bien qu'il soit pour l'heure impossible de créer des services en ligne traduits dans toutes les langues européennes, ce démonstrateur devrait toutefois offrir la possibilité aux utilisateurs de "parler" à un service "drive" étranger dans leur propre langue afin d'obtenir des réponses rapides en retour.
Tout au long de la phase de test de la plate-forme, de nouvelles fonctionnalités basées sur la voix seront présentées à un panel de clients-testeurs aux profils variés (âges, habitudes d'achat, langues, etc.). Leurs réactions seront recueillies à intervalles réguliers par la société Netfective Technology afin d'améliorer le service au fil du temps.

Acronyme désignant les cinq géants américains du numérique, à savoir Google, Apple, Facebook, Amazon et Microsoft .
Equipe-projet commune à l'Université de Lorraine, l'Inria et au CNRS.
Ce projet associe à la fois les équipes Multispeech et Magnet d'Inria, des chercheurs de l'université allemande de la Sarre ainsi que quatre partenaires industriels allemand, français, letton et espagnol.

Site web du projet