Hervé Jégou : la reconnaissance visuelle à très grande échelle

Mis à jour le 15/10/2020

Scientifique au centre Inria Rennes - Bretagne Atlantique, Hervé Jégou obtient une bourse du Conseil européen de la recherche (European research council , ERC) pour explorer de nouvelles méthodologies permettant d'effectuer de la découverte automatique de liens visuels entre des images. Comme il l'explique, il faudra un changement de paradigme pour venir à bout du problème d'échelle qui se pose lorsqu'on tente de croiser toutes les images dans de grandes collections.

Flickr, Tumblr, Twitter... Des milliards d'images se répandent désormais dans nos vies numériques. À eux seuls, les Facebookeurs en ajoutent 3 500 par seconde. Il n'y a pas si longtemps encore, pour chercher, organiser ou comparer ces images, l'utilisateur se voyait contraint de recourir à des mots-clés. Cette méthode pouvait s'avérer parfois un brin frustrante. Mais les choses sont en train de changer grâce à des techniques permettant de décrire le contenu visuel sans passer par la case texte. Pierre angulaire de ces approches : la conversion de l'image en plusieurs milliers de vecteurs qui en constituent une description mathématique.
Très vite l'industrie a perçu tout le potentiel de cette avancée. Dès 2009, TinEye.com lançait un moteur de recherche basé sur la reconnaissance visuelle. Il suffit de lui soumettre une photo pour qu'il s'en aille fureter sur le Web à la recherche de toutes les utilisations de cette image, y compris même des versions modifiées. Un outil de prédilection pour les photographes traquant le non-respect de leur droit d'auteur sur l'immensité du réseau Internet. Le Goggle de Google offre un autre exemple d'application pour smartphones.

Parcourir d'immenses photothèques

Chercheur au sein de l'équipe Texmex au centre Inria Rennes - Bretagne Atlantique, Hervé Jégou est l'auteur de méthodes innovantes qui accélèrent de façon spectaculaire les performances de telles recherches dans les grandes bases. Son moteur trouve les bonnes images parmi 110 millions d'autres en seulement 200 millisecondes images. Mais tout cela concerne le domaine de la requête. Un autre défi bien plus impressionnant se profile à l'horizon : parcourir ces immenses photothèques pour identifier automatiquement tous les liens visuels pouvant exister entre des images, mais aussi entre des éléments visuels présents d'une image à l'autre.
« Pour mettre à jour de tels liens, il n'existe pas actuellement de méthodologie efficace et précise », estime Hervé Jégou. Pourquoi ? « Parce que l'on se heurte tout simplement à un énorme problème d'échelle. » Comparer une image à un milliard d'autres ne pose plus guère de difficulté à l'aune des puissances de calcul désormais disponibles. En revanche, effectuer une comparaison croisée entre toutes ces images pour en découvrir tous les liens visuels tient encore de la gageure.
« Le coût devient quadratique en fonction du nombre d'images et de descripteurs par image. Actuellement, lier un million d'images requiert environ sept heures. Mais pour un milliard, avec les approches actuelles, il faudrait sept millions d'heures ! » Autre mauvaise nouvelle : les résultats ne s'avèrent satisfaisants que pour des récurrences visuelles fréquentes. Dans l'état de l'art, les meilleurs algorithmes ne détectent pas les similitudes plus rares.

Des représentations d'images radicalement nouvelles

C'est pour tenter de briser ce verrou que le Conseil européen de la recherche octroie au scientifique une bourse de 1,5 million d'euros. Pendant cinq ans, l'équipe qui va être constituée travaillera sur trois axes. Premier objectif : trouver des représentations d'image radicalement nouvelles. Ceci afin de pouvoir effectuer les tâches de reconnaissance visuelle ambitionnées par le projet. Le deuxième point porte sur l'identification de sous-ensembles de vecteurs susceptibles de représenter des objets identiques dans différentes images. Les solutions algorithmiques actuelles ne conviennent pas, soit par manque de robustesse soit par incapacité à passer l'échelle.
Le troisième volet fait apparaître le besoin de nouvelles méthodes de codage afin de représenter et comparer les ensembles de vecteurs dans de grandes collections. La mémoire et l'efficacité constituent à cet égard des critères essentiels. Certes, il existe des algorithmes comme le MinHash du moteur AltaVista qui savent comparer efficacement des entités appartenant à l'espace discret (les mots par exemple). Mais ils ne peuvent pas traiter la quantité de nuances contenues dans l'image. Autant de vecteurs qui relèvent de l'espace continu. Conséquence : une partie de l'information s'évapore durant la phase de quantification.
Si ces recherches sont couronnées de succès, les scientifiques illustreront le bien-fondé de ces approches grâce à deux démonstrateurs où l'utilisateur pourra cliquer sur des liens visuels directement dans les images. « Je suis convaincu que ces travaux ouvriront aussi la voie à de nouvelles applications et de meilleures représentations pour la recherche par requête. » C'est alors toute la chaîne de recherche visuelle qui s'en trouverait impactée.

La thèse d'Hervé Jégou portait sur le codage source canal. Rejoignant Inria en 2006, le scientifique s'est alors tourné vers la vision par ordinateur et la reconnaissance de modèles visuels. Le projet soutenu par l'ERC, Viamass, se situe au carrefour de ces deux disciplines. Il apporte aux problèmes de l'indexation à grande échelle des méthodologies venues du traitement du signal et de la compression.