15130

Auteurs

Ikram Chraibi Kaadoud

Thierry ViÃ©ville

Introduction

Il y a en science quelques buzz-wordsÂ â€” littÃ©ralement Â« mots-rumeurs Â»Â â€” qui font la Une avant de cÃ©der la place au mot Ã la mode suivant. Le deep-learning â€” ou en franÃ§ais Â« apprentissage profond Â»Â â€” en est un.

Image

deep-learning_chapo

L'apprentissage profond : une idÃ©e Ã creuser ?

Contenu

En effet, des scientifiques ont su mÃ©diatiser cette mÃ©thode avec des rÃ©sultats expÃ©rimentaux spectaculaires. Cette approche a permis plusieurs avancÃ©es majeures : la plus connue est sans doute le programme de reconnaissance des visages de Facebook, rÃ©cemment c'est la victoire d'AlphaGo qui a fait la Une, mais cela s'applique aussi Ã des secteurs comme l'automobile avec NVIDIA qui fournit des outils d'aide Ã la conduite assistÃ©e et autonome (ADAS), ou la santÃ© avec la recherche de cellules cancÃ©reuses par la start-up DreamQuark, ou encore la reconnaissance de parole. Ici, en nous basant notamment sur l'ouvrage de Yoshua Bengio Learning Deep Architectures for AI et les travaux de l'Ã©quipe de Yann LeCun, nous souhaitons montrer les apports de cette construction scientifique multi-disciplinaire au machine learning ou Â«Â apprentissage automatiqueÂ Â». CommenÃ§ons par un exemple qui montre l'intÃ©rÃªt de ce formalisme. PrÃ©cisons ensuite ce que calcule un rÃ©seau de neurones artificiels. Cela nous permettra de donner les idÃ©es-clÃ©s de l'apprentissage profond, des rÃ©seaux de neurones profonds et de leur complexitÃ©.

Apprentissage profond pour lâ€™analyse de scÃ¨nes

En associant l'apprentissage profond Ã des mÃ©canismes algorithmiques de vision par ordinateur, il est possible d'analyser automatiquement une scÃ¨ne visuelle. Voici deux exemples tirÃ©s des travaux de Yann LeCun et de son Ã©quipe : tout d'abord, des scÃ¨nes oÃ¹ il a Ã©tÃ© possible de reconnaÃ®tre les objets (verdure sur-coloriÃ©e en vert, bÃ¢timents en ocre et vÃ©hicules en magenta). [caption id="" align="alignnone" width="750"] scene1

Source : ClÃ©ment Farabet, Camille Couprie, Laurent Najman, Yann LeCun Learning Hierarchical Features for Scene Labeling (2013).[/caption] Autre exemple, cette scÃ¨ne panoramique urbaine oÃ¹ chaque objet est catÃ©gorisÃ©. [caption id="" align="alignnone" width="750"] scene2

Source : ClÃ©ment Farabet, Camille Couprie, Laurent Najman, Yann LeCun Learning Hierarchical Features for Scene Labeling (2013).[/caption] PrÃ©cisons que l'algorithme ne Â«Â comprendÂ Â» rien, il ne fait que classifier. Le terme de route (road),Â bÃ¢timent (building) ou personne (person) nâ€™a pas de sens pour lui, ce ne sont que des Ã©tiquettes. Mais d'autres algorithmes peuvent Ãªtre programmÃ©s Ã partir de ces donnÃ©es. Par exemple, cela permet Ã un systÃ¨me de surveillance d'autoroute, dotÃ© de milliers de camÃ©ras dont les flux vidÃ©o ne sont humainement pas exploitables, de veiller au mieux Ã la sÃ©curitÃ© des automobilistes. Cela pourrait aussi aider, par exemple, Ã identifier automatiquement les vÃ©hicules en cause suite Ã un accident. Les mÃ©canismes d'apprentissage profond ont fait leurs preuves en reconnaissance dâ€™image, comme le montrent les exemples prÃ©cÃ©dents. Les rÃ©seaux de neurones profonds, qui sont Ã la base de lâ€™apprentissage profond, font aussi partie intÃ©grante des systÃ¨mes de reconnaissance de parole ou encore de traitement du langage naturel, auxquels ils apportent une amÃ©lioration indiscutable. Voir par exemple la bibliothÃ¨que open source proposÃ©e par Google, TensorFlow, ou MonkeyLearn, ou aussi scikit-learn. Comment ces mÃ©canismes fonctionnent-ilsÂ ? Afin dâ€™aider Ã la comprÃ©hension des Ã©lÃ©ments les plus thÃ©oriques, gardons Ã lâ€™esprit lâ€™exemple dâ€™un systÃ¨me qui doit deviner quelles Ã©tiquettes poser sur une image.

Que calcule un rÃ©seau de neurones artificielsÂ ?

Un unique neurone artificiel est une Â«Â machineÂ Â» trÃ¨s simple. Ã€ partir de plusieurs entrÃ©es, il produit une seule sortie. Les entrÃ©es (x_i) sont mÃ©langÃ©es, câ€™est-Ã -dire additionnÃ©es en pondÃ©rant chacune dâ€™elles d'un poids w_i positif (qui excite le neurone) ou nÃ©gatif (qui inhibe le neurone), et en ajoutant au total une valeur b appelÃ©e biais. Une fonction seuil appliquÃ©e Ã ce total classifie le rÃ©sultat comme valeur basse ou valeur Ã©levÃ©eÂ : si le total dÃ©passe le seuil, le neurone Â«Â produitÂ Â» une sortie, sinon il ne produit rien. Un neurone unique effectue ainsi un calcul trÃ¨s rudimentaire de classification. Par exemple, un neurone avec deux entrÃ©es, qui prend en entrÃ©es les coordonnÃ©es dâ€™un point dans le plan, dÃ©termine si ce point se trouve dâ€™un cÃ´tÃ© ou de lâ€™autre dâ€™une droite donnÃ©e. ConsidÃ©rons maintenant un rÃ©seau de neurones, le plus simple Ã©tant formÃ© de deux couches. La premiÃ¨re couche est constituÃ©e dâ€™un ensemble de neurones, connectÃ©s en parallÃ¨le, et fournissant un ensemble de sorties y. Si ces sorties (y) sont maintenant combinÃ©es en Ã©tant les entrÃ©es dâ€™un nouvel ensemble de neurones formant une seconde couche, nous obtenons alors un rÃ©seau de neurones Ã deux couches qui peut sÃ©parer un ensemble de donnÃ©es en deux. Nous verrons plus loin la possibilitÃ© de gÃ©nÃ©raliser cette architecture et de passer dâ€™un rÃ©seau Ã deux couches Ã un rÃ©seau Ã plusieurs couches. Regardons maintenant comment un rÃ©seau Ã deux couches permet dâ€™apprendre une fonction mathÃ©matique. ConsidÃ©rons une suite dâ€™exemples, chacun constituÃ© dâ€™un ensemble dâ€™entrÃ©es x_i et de la sortie y attendue correspondante, que nous prÃ©sentons au rÃ©seau. Durant cette phase dite Â«Â dâ€™entraÃ®nementÂ Â», le rÃ©seau va ajuster automatiquement les paramÃ¨tres de chaque neurone, câ€™est-Ã -dire les valeurs des poids et du biais afin de minimiser l'erreur moyenne calculÃ©e sur lâ€™ensemble des exemples entre la sortie attendue et celle observÃ©e. Il sâ€™agit alors dâ€™apprentissage supervisÃ© puisque nous apprenons au rÃ©seau Ã fournir une rÃ©ponse connue Ã lâ€™avance. Lâ€˜hypothÃ¨se est quâ€™aprÃ¨s cette phase dâ€™entraÃ®nement, le rÃ©seau sera capable de traiter de maniÃ¨re satisfaisante de nouveaux exemples, dont la sortie est inconnue, en fonction de ce quâ€™il a Â«Â apprisÂ Â». Il est Ã noter que plus le corpus dâ€™exemples pour la phase dâ€™entraÃ®nement est important, plus la prÃ©cision du rÃ©seau sera Ã©levÃ©e. Ce type de rÃ©seau trop simple pour faire de la reconnaissance dâ€™images peut nÃ©anmoins permettre de rÃ©aliser par exemple de la classification de donnÃ©es comme le propose le schÃ©ma suivant. Si lâ€™on considÃ¨re un plan contenant des donnÃ©es, soit un espace Ã deux dimensions, un neurone seul rÃ©alisera une sÃ©paration linÃ©aire de ce plan. La fonction mathÃ©matique quâ€™il reprÃ©sente est alors lâ€™Ã©quation dâ€™une droite sÃ©parant ce plan en deux, comme le montre le schÃ©ma ci-dessous Ã gauche. Si les donnÃ©es, et donc le problÃ¨me de sÃ©paration, sont plus complexes, la fonction mathÃ©matique sera non plus lâ€™Ã©quation dâ€™une droite mais une Ã©quation polynomiale de degrÃ© 3 par exemple. Un neurone ne sera pas suffisant, câ€™est un rÃ©seau de neurones qui rÃ©alisera cette sÃ©paration complexe du plan. Dans lâ€™exemple ci-dessous, lâ€™augmentation du nombre de couches et du nombre de neurones accroÃ®t le pouvoir de sÃ©paration. [caption id="" align="alignnone" width="750"] schema2

SchÃ©ma d'aprÃ¨s Nicolas Rougier : Perceptron simple, Perceptron Multi-couches.[/caption] Selon sa structure, un rÃ©seau de neurones fournit une approximation de diffÃ©rents types de fonction. En effet, les rÃ©seaux Ã deux couches peuvent reprÃ©senter des fonctions boolÃ©ennes ou des fonctions continues, alors quâ€™un rÃ©seau Ã une couche ne permet de reprÃ©senter que des fonctions boolÃ©ennes. Lâ€™idÃ©e forte de lâ€™apprentissage par rÃ©seaux de neurones est de pouvoir, Ã partir d'un ensemble de calculs rudimentaires et locaux Ã chaque neurone, apprendre une fonction plus complexe. On peut alors avoir l'impression dâ€™ouvrir la voie Ã la crÃ©ation d'algorithmes universels, qui pourraient, avec suffisamment de mÃ©canismes Ã©lÃ©mentaires, donc de neurones, et suffisamment d'exemples d'apprentissage, apprendre des fonctions aussi sophistiquÃ©es que voulu. Mais pourrait-on ainsi, en ajoutant des neurones et des couches, obtenir une approximation de nâ€™importe quelle fonction mathÃ©matiqueÂ ? Dans les faits, cet espoir se heurte malheureusement Ã la malÃ©diction de la complexitÃ©. On pourrait certes, thÃ©oriquement, obtenir une approximation de toutes les fonctions avec un rÃ©seau volumineux en termes de couches et de neurones, mais ce serait Ã condition dâ€™utiliser un nombre dÃ©raisonnablement Ã©levÃ© de neurones. Que se passe-t-il si le nombre de paramÃ¨tres intervenant dans un problÃ¨me et donc le nombre de dimensions augmentent ? Le nombre de neurones nÃ©cessaires pour calculer une telle fonction augmentera exponentiellement avec la complexitÃ© de cette fonction. Si lâ€™on reprend notre exemple dâ€™Ã©tiquetage des images, et que lâ€™on considÃ¨re une image en couleurs de 300x300 pixels, nous aurions 90Â 000 pixels pour chacune des trois couleurs rouge, vert et bleu, soit 270Â 000 pixels au total. Si nous associons un neurone Ã chaque pixel, il faudrait dÃ©jÃ 270Â 000 neurones rien que dans la couche dâ€™entrÃ©e. Or ceci est tout simplement trop volumineux en termes de complexitÃ© de calcul, Ã lâ€™heure actuelle, pour un rÃ©seau de neurones artificiels. Et il ne sâ€™agitÂ que dâ€™une petite imageÂ ! Cela illustre le fait qu'un rÃ©seau comportant des millions de neurones nâ€™est pas pour tout de suite. Ce n'est du reste pas la seule difficultÃ©. Dâ€™autres limitations importantes sont le nombre souvent faramineux d'exemples nÃ©cessaires pour apprendre les paramÃ¨tres et le souci que ce qui a Ã©tÃ© appris sur ces exemples se gÃ©nÃ©ralise bien Ã tous les autres cas (en Ã©vitant de se baser seulement sur quelques cas particuliers). Que pourrions-nous proposer pour fabriquer un systÃ¨me qui aurait un comportement satisfaisant avec un nombre raisonnable d'unitÃ©s de calculÂ ? Serait-ce en utilisant des unitÃ©s de calcul plus sophistiquÃ©es que ces neurones artificielsÂ ? Ou plutÃ´t en changeant l'architecture du rÃ©seau, c'estâ€“Ã -dire ses connexionsÂ ? Nous avons prÃ©sentÃ© ci-dessus un rÃ©seau dont l'architecture est simpleÂ : avec des connexions dans un seul sens, des entrÃ©es vers les sorties, et uniquement deux couches de neurones, essentiellement capable dâ€™approximer des phÃ©nomÃ¨nes linÃ©aires. Que se passerait-il si nous utilisions une architecture plus complexeÂ ? Il existe en effet diffÃ©rentes maniÃ¨res de complexifier un rÃ©seau de neurones notamment en changeant la topologie en fonction du but recherchÃ©. Le rÃ©seau peut par exemple comporter plus de deux couches. Il est alors qualifiÃ© de Â«Â multicoucheÂ Â»Â : avec une couche dâ€™entrÃ©e, une couche de sortie, et une ou plusieurs couches cachÃ©es ou intermÃ©diaires. Le perceptron multicouche, capable de traiter des phÃ©nomÃ¨nes non linÃ©aires, est un exemple de ce type de rÃ©seau. Un rÃ©seau de neurones peut aussi comporter des connexions rÃ©currentes : il est alors dotÃ© dâ€™une seule couche dans laquelle tous les neurones sont interconnectÃ©s afin de crÃ©er, par exemple, une mÃ©moire adressable par son contenu. MathÃ©matiquement, il correspond alors Ã une matrice de poids. Voir l'encadrÃ© ci-dessous.

Contenu

Apprentissage profond pour lâ€™analyse de scÃ¨nes

Que calcule un rÃ©seau de neurones artificielsÂ ?

Thèmes scientifiques

Intelligence artificielle

15130

Auteurs

Ikram Chraibi Kaadoud

Introduction

Contenu

Apprentissage profond pour lâ€™analyse de scÃ¨nes

Image

deep-learning_chapo

Thèmes scientifiques

Intelligence artificielle