Sites Inria

Loisirs

Patrick Gros, Christophe Castro - 30/05/2012

De Roland Garros à la télé du futur

joueuse de tennis © fotolia - lilufoto #7729721

Il y a deux façons de voir Roland Garros : comme le plus spectaculaire des tournois de tennis sur terre battue ou comme une avalanche d’images vidéo ! 3 semaines de compétition, plusieurs dizaines de matchs, incluant 5 jours de qualifications, 224 candidats pour 28 places.  Un vrai passionné de tennis qui voudrait suivre l’intégralité de la compétition devrait y consacrer des centaines d’heures. Impossible, alors comment choisir les bons matchs ?

« Les matchs de tennis enregistrés en vidéo sont un remarquable objet d’étude scientifique », comme l’explique Patrick Gros, directeur de recherche chez Inria (Rennes). Son équipe de recherche Texmex s’est spécialisée dans les techniques d’exploitation des données multimédias : elle a pu démontrer qu’il est possible de faire l’analyse automatique de matchs.

On imagine facilement les services pouvant en découler : le téléspectateur pourrait demander à sa box de lui faire un résumé d’une demi-heure, pour ne voir que  les plus beaux coups de la journée , par exemple. Autre service envisageable : une aide à la navigation à l’intérieur d’un match, grâce à des outils d’indexation de séquences (set, balle de match...) mais surtout des temps forts, beaucoup plus qualitatifs et difficiles à détecter. L’équipe de recherche Texmex se penche aussi sur la comparaison automatique de séquences (tennis, foot...) pour qu’un système puisse retrouver dans des archives vidéo un événement similaire s’étant déroulé dans un match précédent.

« Le sport n’est pas le seul domaine concerné : s’orienter dans les flux vidéos devient un véritable enjeu, tant leur volume augmente chaque jour », souligne Patrick Gros. En effet, dès 2015, la somme de toutes les formes de vidéos devrait représenter près de 90% du trafic Internet « grand public » (TV, vidéo à la demande, Internet et peer-to-peer). En cette même année 2015, il circulera chaque seconde sur le réseau plus d’un million de minutes de vidéo !

Ces volumes astronomiques s’expliquent en partie par la multiplication des objets numériques capables de publier des vidéos : appareils photos, téléphones, tablettes, webcams et bien sûr caméras vidéo. Conséquence, sur un site comme YouTube, le volume de données augmente de façon explosive puisque, chaque minute, ce sont plus de 48 heures de vidéo qui viennent s’ajouter au contenu existant. Produite par des professionnels ou des amateurs, diffusable à toute heure et sur n’importe quel écran - du smartphone à la tablette ou à l’écran géant - la télé du futur s’est définitivement libérée du de la télécommande mais doit apprendre à naviguer sur d’immenses flots de données multimédias !

Quand la vidéo se cherche des repères

Démonstration de PQ Codes Démonstration de PQ Codes : la recherche à partir d'une image dans une base de 10 millions d'images prend environ 20 millisecondes. - © Inria Rennes

Comme le résume Patrick Gros, il y a aujourd’hui 4 défis majeurs si l’on veut tirer parti du volume colossal de vidéos disponibles. Première difficulté : extraire une information utile . Certes la base est une image vidéo - qui n’est jamais qu’une liste de millions de points colorés - mais l’analyse de scènes peut parfois s’appuyer sur d’autres éléments informatifs. Ces données, dites multimodales, sont extraites des paroles de commentaire, des textes affichés, et des bruits (impacts, applaudissements...). Mais leur modélisation est complexe, dans la mesure où l’information provenant de ces canaux est complémentaire mais pas forcément simultanée.

Second problème : qu’est-ce qui va intéresser un spectateur humain dans une vidéo d’un genre donné ? Le commentaire sportif, par exemple, n’est pas forcément une base très solide alors que dans un documentaire il apportera parfois des informations importantes. Troisième obstacle, comment réorganiser les données pour qu’elles semblent pertinentes à un observateur humain ? Dans ce but, pour construire un résumé de match par exemple, il faudra s’appuyer sur des règles narratives qui correspondent au genre. Et comme l’explique Patrick Gros : « ne pas oublier que les tailles d’écrans impliquent une stratégie éditoriale différente : par exemple, est-il intéressant de montrer un plan large d'un match de tennis à quelqu'un qui le regarde sur son smartphone... alors que la balle n'y sera pas plus grande qu'un ou deux pixels ? ».

Enfin, la dernière difficulté tient à la rapidité d’analyse. Des services d’aide à la navigation multimédia seraient notamment utiles dans deux situations : l’analyse rapide de gros flux vidéo  (pour produire un résumé de matchs à la fin d’une journée de retransmission, par exemple), ou la recherche de similitudes  à l’intérieur de gigantesques base de données vidéos (scènes ou situation similaires, sur la base de certains critères). Une performance déjà réalisée par le logiciel PQ Codes d’Inria, capable de retrouver en 20 millisecondes une photo ou vidéo parmi 10 millions de fichiers ! Rapide, riche, intelligente, reliée à Internet, dotée de nouveaux services : la télé du futur s’ouvre un bel avenir...

Haut de page

Suivez Inria tout au long de son 50e anniversaire et au-delà !