Portrait

22/05/2013

Emmanuel Vincent : les mathématiques au service du son

Titulaire d’un DEA « Acoustique, Traitement du signal et Informatique Appliqués à la Musique » et d’un doctorat de l'Université Paris VI effectués à l'IRCAM, Emmanuel Vincent est recruté, comme chargé de recherche à Inria Rennes - Bretagne Atlantique, en 2006 après un post-doctorat effectué à Queen Mary, Université de Londres. C’est depuis le 1er janvier 2013 qu’il a rejoint Inria Nancy – Grand Est et plus précisément l’équipe Parole dirigée par Yves Laprie.

Musicien, pratiquant la harpe, Emmanuel veut mettre le traitement du signal et les mathématiques au service du son. Un axe central de ses recherches est la séparation de sources, qui consiste à extraire les différentes sources sonores présentes simultanément dans un enregistrement. Même si beaucoup de progrès ont été réalisés depuis vingt ans, cette question reste aujourd’hui un sujet de recherche prégnant. Au-delà de ses applications médiatisées au rehaussement et à la reconnaissance robuste de la parole pour les téléphones portables, la séparation des sources permet d’autres applications comme le rendu 3D et le remixage d'enregistrements musicaux ou de bandes son, des techniques aujourd’hui très attendues dans l’industrie de la musique et du cinéma.

À l’inverse de l’image au cœur de la bataille entre fournisseurs de matériel et de contenus, le son est souvent perçu à tort comme secondaire (essayez d'écouter un film ou un débat télévisé sans le son!). Pour cette raison, la recherche amont sur le traitement du signal et de l'information sonore reste encore essentiellement académique et peu de PME se permettent d'investir dans ce secteur. Pour autant, cette industrie devrait exploser dans les années à venir. En effet, les besoins et applications en multimédia, en domotique, en téléphonie et en santé, avec l’accroissement des vidéos personnelles, des aides auditives et des interfaces de commande vocale à distance, ne vont cesser d'augmenter pour gagner en qualité.

« Le traitement du signal audio nécessite une exigence de qualité hi-fi: l'oreille est capable de percevoir le moindre artefact de traitement. »

À l'opposé de la séparation manuelle des sons effectuée par les ingénieurs du son, les techniques de séparation automatique ou semi-automatique conçues par Emmanuel et ses collègues du domaine permettent d'ores et déjà de gagner beaucoup de temps et, pour certaines d'entre elles, de séparer le flux audio en temps réel. Des contrats sont en cours avec le laboratoire de recherche de Canon, comme avec la PME Audionamix ou le studio d'ingénieurs du son MAIA, et un nouvel axe de recherche vient de débuter sur la reconnaissance de la parole dans un environnement bruité. Le logiciel FASST (Flexible Audio Source Separation T ool box ) fournit par ailleurs un ensemble de briques logicielles permettant aux non-experts de développer rapidement un algorithme adapté aux caractéristiques des enregistrements à séparer.

Emmanuel souhaite aussi explorer les problèmes émergents associés à l'exploitation des masses de données et au traitement du langage et des connaissances sonores. Ces questions, qui font aujourd'hui l'objet de nombreux travaux dans le domaine du langage naturel et de la parole, restent peu explorées en ce qui concerne la musique, les sons environnementaux ou les langues rares. Sur le plan scientifique, elles soulèvent le défi central de modéliser et d'exploiter les incertitudes sur les signaux, les modèles et les connaissances à tous les étages de traitement. Sur le plan applicatif, elles pourront permettre par exemple à tout un chacun de composer automatiquement de la musique associée à son humeur, ou aux entreprises d'améliorer leur communication grâce au design sonore (1). Nous n'en sommes qu'aux balbutiements de cette nouvelle forme de design qui est appelée à devenir une spécialité centrale dans le domaine du marketing, car tout objet, toute structure aura son identité sonore.

(1) D'après la définition des chercheurs de l’IRCAM, le design sonore consiste à « faire entendre une intention ».

Localisation

Mots-clés : Design sonore Logiciel FASST Musique 3 D Remixage Emmanuel Vincent Equipe Parole Traitement de signal Séparation de source