Un chercheur Inria coorganise un challenge international sur la cybersécurité vocale

Mis à jour le 26/02/2020

Un scientifique d’Inria Nancy-Grand Est a coorganisé le plus grand challenge à ce jour sur la détection des signaux vocaux falsifiés. Cet événement, qui a attiré plus de 150 participants de 30 pays, visait à sécuriser davantage les systèmes d'accès vocal, améliorer les technologies de détection et découvrir les technologies de falsification les plus efficaces.

« Accès refusé, veuillez répéter » ... à mesure que les systèmes d'accès vocaux se répandent, cette phrase devient de plus en plus fréquente. Mais selon les contextes, elle peut provoquer différentes réactions : du simple agacement lorsque vous commandez un burger au drive, à la montée de stress lorsque vous tentez d'accéder à une plate-forme bancaire en ligne depuis votre ordinateur personnel. La capacité des systèmes d'accès vocal à distinguer de manière fiable les voix falsifiées (ou usurpées) des voix authentiques et à autoriser l'accès en conséquence est cruciale pour garantir la confiance du consommateur et soutenir ainsi le développement de ces technologies. Par conséquent, ce domaine mobilise de plus en plus de développeurs et de scientifiques à travers le monde, comme MD Sahidullah, du centre Inria Nancy - Grand Est.

Ce chercheur de l'équipe Multispeech a organisé, en collaboration avec des chercheurs du consortium international ASVSpoof, le plus grand challenge à ce jour sur la détection des signaux audio falsifiés : the Automatic Speaker Verification Spoofing challenge (ou ASVSpoof ). Les résultats sont publiés aujourd'hui, à l'occasion de la conférence Interspeech 2019, et ils devraient permettre de faire progresser considérablement l'efficacité des technologies de détection.

Trois principales techniques de falsification

Les systèmes d'accès vocal peuvent vous permettre d'accéder à deux types d'espaces : les espaces physiques, comme un immeuble de bureaux ou une salle de sport, et les espaces virtuels, comme une plate-forme bancaire en ligne ou le service de commande d'un fast food. Chaque type d'espace peut être trompé par des technologies d'usurpation spécifiques : lecture de sons audio enregistrés pour les espaces physiques, synthèse vocale artificielle ou conversion vocale pour les espaces virtuels. La lecture de voix enregistrées est la méthode d'usurpation de voix la plus primitive, mais les récentes améliorations apportées aux technologies d'enregistrement et de lecture la rendent de plus en plus difficile à détecter. Les deux autres méthodes d'usurpation sont issues de technologies plus récentes, comme les réseaux neuronaux profonds. La synthèse vocale artificielle, également appelée « synthèse texte-parole », repose sur la capacité d'un ordinateur à générer automatiquement une voix artificielle pour « lire » un texte donné. Grâce aux méthodes de conversion vocale, les hackers peuvent par contre transformer la voix réelle d'une personne en celle d'une autre.

Le développement des réseaux neuronaux a permis de perfectionner très rapidement les technologies de synthèse et de conversion vocale, pour produire un son très réaliste et donc difficile à détecter. Au-delà de la menace évidente pour la sécurité des espaces virtuels, ces technologies représentent aussi un risque plus important de manipulation de masse puisqu’elles sont au cœur de la création de vidéos truquées, qui déforment les discours réels de personnalités politiques et célèbres pour les transformer en fausses déclarations.

Les participants au challenge ASVSpoof ont reçu à la fois des enregistrements audio authentiques et usurpés créés à partir des trois technologies décrites ci-dessus. Pendant la première partie du challenge, on leur a indiqué lequel était authentique ou usurpé, afin qu'ils puissent mettre au point leurs outils de détection et les calibrer. Ces outils de détection récemment optimisés ont ensuite été utilisés dans la deuxième partie du challenge pour évaluer si d'autres enregistrements étaient authentiques ou non.

La voix, le prochain marqueur biométrique ?

« Nous pensons que la voix deviendra un marqueur biométrique, au même titre que les empreintes digitales » , explique MD Sahidullah. « Il est très important de développer des outils fiables pour détecter les usurpations en toutes circonstances. Des challenges tels que ASVSpoof rassemblent plus de 150 équipes autour de l'analyse d'un même ensemble de données et permettent ainsi de réaliser en un temps record des améliorations techniques qui ne seraient pas possibles autrement. »

Dans le cadre du challenge ASVSpoof, les technologies qui se sont avérées les plus efficaces sont celles associant plusieurs techniques. Celles qui ne mobilisent qu’une seule technique n’ont pas obtenu de bons résultats. Bien que les détails de ces combinaisons ne soient pas publiés, les outils de détection les plus efficaces pour protéger l'accès aux espaces virtuels font tous appel à des technologies d'apprentissage profond, comme les réseaux neuronaux convolutifs.

Une nouvelle norme pour définir l’efficacité d’un système de détection

Au-delà de l'élan de progrès suscité par le challenge, les organisateurs ont également introduit un nouvel outil de mesure de l'efficacité de la détection qui pourrait devenir la nouvelle norme : la fonction tandem-décision-coût (t-DCF). De manière générale, l'efficacité des systèmes de détection se mesure en pourcentage de voix usurpées acceptées et de voix authentiques refusées : plus le pourcentage est faible, plus le système est efficace. Cependant, cette mesure ne tient pas compte de l'expérience de l'utilisateur, ni du coût, et ne reflète pas vraiment les « situations réelles ».

Par exemple, la protection de l'accès à une plate-forme de banque en ligne est extrêmement importante. Le coût associé à un accès illégal est tel que le moindre doute sur l'identité de la personne doit entraîner le refus de l'accès. Une banque calibrera son système de sécurité de telle sorte qu'elle préférera refuser l'accès à de vrais clients (dont la voix peut être légèrement différente en raison d'un petit rhume) plutôt que d'accorder l'accès à une personne dont l'identité n'est pas sûre à 100 %. Ainsi, en plus de son système de détection, son système d'accès doit être établi selon des normes très élevées.

Le service de commande d'un fast food, quant à lui, n’exige pas un niveau de sécurité aussi élevé qu’une banque en ligne. Le coût associé à un accès illégal (et à une fausse commande de burgers ) peut être inférieur à celui du refus d'un véritable client qui se sentira frustré et ne reviendra pas. Dans ce cas, le système de détection peut être le même que celui de la banque, mais son système d'accès sera moins exigeant et acceptera toutes les personnes dont la voix est évaluée comme étant « seulement » authentique à 95 %, par exemple.

Le nouvel outil de mesure développé dans le cadre de ce challenge est original en cela qu’il combine à la fois la mesure de l'efficacité du système de détection et celle du système d'accès ; il est donc plus proche des conditions réelles. L’outil de mesure est basé sur une fonction de coût : plus la valeur est faible, plus le système global est efficace. Pour les besoins de la version 2019 du défi ASVSpoof, le niveau du système d'accès était fixe, de sorte que les participants n'avaient besoin d’aucune connaissance en la matière. La prochaine édition, qui aura probablement lieu en 2021, pourrait introduire des attaques plus complexes et encore plus proches de la réalité.

En savoir plus

Pour en savoir plus sur le Challenge, consultez le site Web
En savoir plus sur l'équipe de recherche Multispeech