Sites Inria

Technologie

Jean-Michel Prima - 11/04/2017

Des images pour la télévision à point de vue libre

Thomas Maugey Thomas Maugey

La télévision du futur offrira au spectateur le choix entre de multiples angles pour suivre l'action selon ses propres préférences. Partout dans le monde, des chercheurs imaginent déjà les algorithmes qui permettront la diffusion de ces flux vidéo. Mais tous se heurtent au même problème : le manque de matière première pour tester. Il n'existe tout simplement pas d'enregistrement offrant réellement une multitude de points de vue simultanés pour des scènes de grande ampleur. En préalable à toute avancée, il faut donc réaliser ce corpus d'images. Et c'est précisément l'objectif d'Atep, une Action de Développement Technologique coordonnée par le chercheur Thomas Maugey au centre Inria Rennes – Bretagne Atlantique.

C'est l'annonce du zapping ultime. Dribles devant les buts. Le ballon hésite. Les joueurs aussi. Et des millions de spectateurs appuient frénétiquement sur leur télécommande. Les uns pour se placer derrière le gardien. D'autres pour choisir un angle latéral. D'autres encore pour préférer une image frontale. On appellera cela la télévision à point de vue libre. Chacun décide en temps réel à partir de quelle caméra il souhaite regarder la scène. Rencontre sportive, concert ou fiction.

Cette télévision n'existe pas, mais elle est dans les cartons et elle soulève énormément d'enjeux scientifiques à toutes les étapes de la chaîne de production, ” indique Thomas Maugey , chercheur dans l'équipe Sirocco. Exemple ? “La compression. Il faut organiser les données pour satisfaire des demandes multiples. Mais si l'on a 1000 caméras autour du stade et que l'action se focalise à un endroit du terrain, pas la peine d'envoyer tous ces signaux. La difficulté, c'est donc de transmettre uniquement le nécessaire.

Autre défi, à l'arrivée chez le téléspectateur : “la synthèse de points de vue virtuels à partir de la donnée disponible. Ce n'est pas possible d'enregistrer tous les points de vue imaginables. Une partie seulement est enregistrée. De son côté, l'utilisateur va générer des points de vue virtuels entre ces points de vue existants.

En amont, à l'autre bout de la chaîne, se pose la question de la représentation des données. “Comment décrit-on la scène ? À base d'images ou alors de maillages, comme on le ferait pour des jeux vidéos ? Il y a plusieurs stratégies. Il faut en définir une.” Alors laquelle ? “Probablement ni le maillage ni l'image, mais plutôt un mélange des deux. ” Plus en amont encore, c'est l'acquisition de la scène qui suscite des interrogations. “Où mettre les caméras ? Combien ? Quel modèle ? À ce niveau-là, tout reste à faire. Tout est ouvert.
Voilà pour le paysage. “Chacun essaye d'explorer une partie de cette chaîne, mais ces projets de recherche n'avancent pas comme on pourrait le vouloir. ” Pourquoi ? “Parce qu'aujourd'hui des scènes multi-vues à partir desquelles nous pourrions tester nos algorithmes, il n'en existe tout simplement pas.

Un outil pour la R&D

L'objectif de l'ADT Atep (Acquisition, Traitement et Partage) est donc de “constituer ces bases de données, de produire des vidéos afin de pouvoir ensuite conduire nos recherches. Cette matière pourra ensuite servir à d'autres scientifiques ou des industriels pour leur R&D. Dans le fond, c'est une forme d'outil scientifique dont tout le monde a besoin pour avancer.
Et en pratique comment vont se dérouler les opérations ? “L'ADT nous permet de recruter un ingénieur pour une durée de deux ans. Nous avons aussi un budget de 40 000 € grâce à une bourse jeune chercheur qui m'est attribuée par Rennes Métropole. De quoi donc acheter des caméras. Nous allons probablement en installer entre 20 et 40. Ce n'est pas encore déterminé. Cela constituerait déjà un système assez conséquent. Imaginez 40 positions avec tous les points de vues qui peuvent déjà être générés sans même parler de la synthèse de vues virtuelles.

Côté choix du matériel, les chercheurs penchent pour l'une de ces nouvelles caméras omnidirectionnelles qui permettent de filmer à 360°. “Le problème d'une caméra classique, c'est qu'elle filme à une seule position et à une seule orientation. Avec une caméra omnidirectionnelle, on couvre tous les angles de rotation à partir d'une seule position. ” Un inconvénient tout de même : l'objectif fisheye génère une image sphérique. “C'est quelque-chose que le téléspectateur ne peut pas regarder directement. Il va falloir un algorithme pour transformer cela en image 2D.

De l'acquisition multi-vues au partage

Reste ensuite à entrer dans le vif du sujet : installer ce dispositif d'acquisition autour d'une scène dynamique. “Un match de foot ou autre chose. Nous n'avons pas encore arrêté de décision. Il faut que ça bouge d'une caméra à l'autre, qu'à des moments, l'utilisateur s'intéresse à une scène plutôt qu'à une autre pour qu'il y ait de vraies navigations.

Pour réussir l'acquisition multi-vues, il va falloir aussi “parfaitement calculer la position des caméras les unes par rapport aux autres. Avec deux caméras omnidirectionnelles, cela a peu été traité dans le passé. Alors avec 40... encore moins. Dans le post-traitement, le gros enjeu consistera à donner des paramètres de calibration.

Ce qui amène à la dernière phase du projet : le partage. “Nous visons une minute de vidéo. ” Pas plus ? “Non. Nous pourrions faire 30 minutes, mais il faut tenir compte du poids des fichiers, car nous n'allons pas compresser ces images. Nous allons volontairement les partager en données brutes, donc dans un format raw qui est très lourd. Cela permettra aux scientifiques et aux industriels de tester et comparer leurs propres algorithmes de compression avant d'envoyer vers un utilisateur final afin d'étudier comment il interagit avec ces données multi-vues. Nous devrions avoir un premier résultat dans environ un an.

Mots-clés : Thomas Maugey INRIA Rennes - Bretagne Atlantique Sirocco Télévision

Haut de page

Suivez Inria tout au long de son 50e anniversaire et au-delà !