La reconnaissance d’images en local sur le téléphone

Mis à jour le 12/04/2022

Dans la vie de tous les jours, nous utilisons notre smartphone pour scanner quantité d’objets afin d’accéder à pléthore de services après reconnaissance d’images par intelligence artificielle. Problème : les applications ont besoin du réseau pour aller vers le Cloud et confier le travail de classification à des serveurs distants. Trois entreprises (IMATAG, Quai des apps et ARIADNEXT) se sont jointes au centre Inria de l'Université de Rennes pour résoudre ce problème. Cette collaboration a permis d’optimiser des algorithmes d’apprentissage profond pour les rendre exécutables sur plates-formes embarquées tout en conservant de bonnes performances.

Photo d'une personne qui utilise un téléphone portable

Du Cloud au local

« Actuellement, dans la plupart des approches permettant de faire de la classification d’images ou de la lecture de documents d’identité à partir d’un smartphone, l’appareil ne sert qu’à effectuer la capture d’image. Ensuite, la donnée est envoyée vers des serveurs sur le Cloud pour l’analyse. Ce traitement s’avère souvent lourd en calcul. Le résultat repart ensuite vers le téléphone de l’utilisateur. Cela fonctionne bien tant qu’il y a du réseau. Mais cela ne marche pas dans les zones blanches ou des endroits soumis à des restrictions d’accès. En réponse à ce problème, le projet de recherche MobileAI visait à porter les technologies de l’intelligence artificielle sur smartphone tout en préservant leur robustesse et leur capacité à fonctionner en temps réel », résume Montaser Awal, responsable de l’équipe de recherche en Intelligence Artificielle chez ARIADNEXT, une entreprise spécialisée dans la vérification à distance de documents et d’identité.

« Le projet est né de discussions informelles au sein d’un groupe de personnes travaillant dans trois sociétés pour qui l’identification de contenus visuels joue un rôle central », se rappelle Mathieu Desoubeaux, cofondateur d’IMATAG, une entreprise issue d’Inria et spécialisée dans le marquage robuste des contenus soumis à copyrights. « Le sujet a d’abord été évoqué par nos amis de Quai des Apps, une société qui travaille dans le domaine de la réalité augmentée. Ils souhaitaient pouvoir faire de l’identification d’images à partir d’un mobile mais sans le réseau. À ces discussions participait aussi très activement Yannis Avrithis, chercheur dans l’équipe Linkmedia au centre Inria de l'Université de Rennes. Et c’est ainsi qu’à nous quatre, nous avons décidé de monter une collaboration de R&D pour essayer de résoudre le problème. »

Débuté en septembre 2018 et achevé en 2021, le projet MobileAI a bénéficié d’un financement de la BPI, de Rennes Métropole et des régions Bretagne et Pays de la Loire à travers un appel du pôle Images & Réseaux.

Réseaux neuronaux convolutifs

représentation d'un téléphone mobile en train de scanner une pièce d'identité

Au cœur du sujet : une famille d’algorithmes d’apprentissage profond particulièrement performants. On les appelle les réseaux neuronaux convolutifs (CNN). « Ce sont de très bons candidats pour la reconnaissance d’images sur mobile, explique Montaser Awal. Mais pour notre usage, nous devions modifier leur architecture et les optimiser afin de les rendre exécutables sur mobile tout en conservant des performances similaires à celles obtenues sur les serveurs cloud. »

Objectif atteint. Le projet a fait avancer l’état de l’art, donnant lieu à dix publications scientifiques et cinq applications prototypes. Les nouveaux algorithmes de classification d’images et de lecture de texte à partir d’une pièce d’identité photographiée ont été immédiatement intégrés dans IDcheck.io, le produit phare d’ARIADNEXT pour l’authentification de documents d’identité. « L’acquisition d’une expertise de pointe en apprentissage profond pour la reconnaissance d’images constitue aussi un socle important pour les développements à venir », indique l’entreprise.

Capture d’images en rayon

De son côté, Quai des Apps a amélioré Blinkl, son application web de narration augmentée. La société propose un service permettant aux clients des magasins de photographier des produits dans les rayons et d’obtenir plus d’informations sur ces références. Jusqu’alors, la reconnaissance d’images s’effectuait sur des serveurs distants. Inconvénients : la charge de calcul imposée à ces machines et aussi les latences en période de pointe, au moment des soldes ou du lancement d’un produit par exemple. À cela s’ajoutait un goulet d’étranglement dans la recherche d’images qui limitait la taille de la base de données à 1000 produits. En basculant la reconnaissance d’images directement sur le mobile et en améliorant les descripteurs de ces images, l’entreprise a changé la donne. Elle peut désormais absorber des bases de 100 000 images. Ces capacités vont permettre à Quai des Apps de répondre aux besoins du commerce de détail que ce soit pour de la capture d’images en rayon ou sur catalogue.

Quant à IMATAG, cette séquence de R&D a permis d’améliorer la technologie de recherche d’images utilisée dans sa solution de surveillance des infractions au copyright. Elle ouvre aussi des perspectives en vue de nouvelles lignes produits.

Projet collaboratif

Verbatim

D’une façon plus générale, les trois partenaires industriels ont acquis une expertise utile dans les solutions d’apprentissage profond pour la reconnaissance d’images sur mobile. Le projet nous a permis à tous de renforcer notre positionnement sur un domaine stratégique et d’améliorer des solutions qui contribuent à la majeure partie de notre chiffre d’affaires.

Mathieu Desoubeaux

co-fondateur d'IMATAG

Découvrez IMATAG

Protection des données personnelles

Imatag protège les contenus et traque les fake news

Voir toutes les actualités