Weigl, Konrad
- Berthod, Marc
Rapport de recherche de l'INRIA -
Sophia Antipolis ,
Equipe : PASTIS
39 pages - Décembre 1993 - Document en anglais

Abstract : We consider feedforward neural network such as multi-layer perceptrons as non-orthogonal bases in a function space, bases which span submanifolds of that space. The basis functions of that base are the functions computed by the neurons of the hidden layer. A function to be approximated is then a vector in the function space. The projection of that vector unto the submanifold spanned by the base is the function approximated by the neural network. That approximation is then optimal when the distance between the function to be approximated and its projection unto the submanifold is minimal by some metric. We compute this distance in sample space, i.e. that subspace of function space the dimensions of which correspond to the input samples we have of the function to be approximated. The objective of learning in such a network is thus to minimize the distance between the function to be approximated and its projection unto the submanifold. This is achieved via dynamically rotating and shifting the base in such a way that the distance above is minimal. That rotation and shifting is executed through modification of the parameters of the basis functions of the network. A convenient way of computing the projection is with the help of metric tensors, a tool from differential geometry. We call this new approach to learning projection learning. The basis functions to be used are arbitrary : Gaussian, Gabor, sigmoid, etc, etc., except that they must be differentiable in some sense with regards to their parameters/wei- ghts. We present the application of the paradigm and learning rule to multi-layer perceptrons as well as bases of multivariate Gaussians, discuss some other potential applications and present alternatives to the use of the metric tensor.
Résumé : Nous considerons des reseaux neuromimetiques a propagation directe tels que les perceptrons multi-couches comme des bases non-orthogonales dans un espace de fonctions, bases qui engendrent des sous-varietes de cet espace. Les fonctions qui composent cette base sont celles calculees par les neurones de la couche cachee. La fonction a approximer par un tel reseau est un vecteur de cet espace. La projection de ce vecteur sur la sous-variete engendree par la base est la fonction approximee par le reseau neuromimetique. Cette approximation est optimale quand la distance entre la fonction a approximer et sa projection sur la sous-variete est minimale pour une metrique donnee. Nous calculons cette distance dans l'espace des echantillons, c'est-a-dire le sous-espace de l'espace des fonctions dont les axes correspondent aux echantillons fournis de la fonction a approximer. L'objectif de l'apprentissage dans un tel reseau est donc de minimiser la distance entre la fonction a approximer et sa projection sur la sous-varite. Ceci est obtenu en modifiant dynamiquement la base de telle maniere que la distance ci-dessus soit minimale. Cet ajustement est realise par la modification des parametres des fonctions de base du reseau. Une bonne maniere de calculer la projection est d'utiliser des tenseurs metriques, un des outils de la geometrie differentielle. Nous appellons cette nouvelle approche de l'apprentissage - apprentissage par projection -. Les fonctions de base utilisables sont arbitraires : gaussiennes- , ondelettes de Gabor, sigmoides, etc. La seule condition est qu'elles soient differentiables d'une maniere ou d'une autre par rapport a leurs parametres/poids. Nous presentons l'application du paradigme et de la regle d'apprentissage a des perceptrons multi-couches et a des bases de gaussiennes multi-variantes, discutons de quelques autres applications potentielles et presentons des alternatives a l'utilisation du tenseur metrique. Les reseaux se montrent robustes a la degradation, integrent d'une maniere flexible des neurones/fonctions de base supplementaires et s'adaptent dynamiquement a leur environnement. The resulting networks display graceful degradation, integrate gracefully further neurons/bais functions for an improved approximation and adapt dynamically to changes in the environment.