Sites Inria

Recherche - Projet

Jean-Michel Prima - 23/08/2011

Un cloud pour comparer nos gènes aux images du cerveau

Visualisation de fibres cérébrales. © Inria / Photo Kaksonen

Collaboration entre deux équipes d'Inria et Microsoft, le projet A-Brain va permettre de comparer efficacement d'énormes volumes de données médicales en utilisant les dernières évolutions en calcul parallèle. Explications avec Gabriel Antoniu, chercheur Inria responsable de l'équipe KerData, au centre de recherche Inria Rennes - Bretagne Atlantique.

La neuro-imagerie contribue au diagnostic de certaines maladies du système nerveux. Mais nos cerveaux s'avèrent tous un peu différents les uns des autres. Cette variabilité complique l'interprétation médicale. D'où l'idée de corréler les vues du cerveaux et le patrimoine génétique de chaque patient afin de mieux délimiter les régions cérébrales qui présentent un intérêt symptomatique. Ce croisement statistique des informations visuelles et génétiques est une spécialité de Parietal. Basée à Saclay, cette équipe de recherche exploite en particulier les images IRM haute définition produites par la plate-forme Neurospin du CEA.

Problème pour ces chercheurs : la masse d'informations à traiter. Le CV génétique d'un individu comporte environ un million de données. À cela s'ajoutent des volumes tout aussi colossaux de voxels pour décrire les images. Un ‘data deluge’ comme disent les Américains. La comparaison de ces données entre elles représente la bagatelle de 1015 tests pour chaque patient. Le recours au calcul parallèle s'impose donc comme une évidence pour venir à bout de cette inflation de calcul. Et c'est là que KerData entre en jeu.

Comme l'explique Gabriel Antoniu, son responsable, cette équipe de recherche rennaise a développé “des mécanismes de stockage efficaces pour améliorer l'accès à ces données massives et optimiser leur traitement. Nos développements permettent de répondre aux besoins applicatifs de nos collègues de Saclay.”  Troisième élément de ce tryptique : Azure, le service de cloud computing de Microsoft. Lancé en 2009, il s'appuie sur des milliers de serveurs installés en batterie dans  plusieurs data-centers, dont un à Dublin.

Partenariat Inria-Microsoft

Baptisé A-Brain, cette nouvelle collaboration entre le géant américain et Inria s'inscrit dans le prolongement d'un partenariat plus large qui s'est concrétisé, entre autres, par la création en 2007 d'un laboratoire de recherche commun à Orsay. “Le nouveau projet court sur deux ans. Chaque année, pour nos travaux, Microsoft met à notre disposition deux millions d'heures de calcul et dix teraoctets d'espace de stockage  sur sa plate-forme cloud Azure. De notre côté, à Rennes, nous prévoyons d'embaucher prochainement un ingénieur. Pour l'équipe KerData, c'est l'opportunité de valoriser nos développements dans un contexte applicatif concret. C'est aussi l'occasion de démontrer la pertinence de notre technologie sur une infrastructure qui, cette fois-ci, n'est plus un réseau de recherche académique, mais un cloud destiné aux entreprises.
Le choix technologique de KerData s'appuie sur le modèle de programmation Map-Reduce qui est une façon d'écrire des applications dans l'optique d'un traitement massif en parallèle. “On peut le voir comme un système double filtrage permettant à la fois d'extraire uniquement les données intéressantes en sortie [Map] et d'agréger ensuite ces informations pertinentes [Reduce]. Il s'agit d'un modèle abstrait. Mais encore faut-il disposer d'un environnement capable de l'exécuter rapidement en optimisant le calcul parallèle pour ces deux filtrages successifs.”

Plate-forme BlobSeer

C'est précisément pour répondre à ce besoin, que les chercheurs de KerData ont élaboré BlobSeer. “Notre plate-forme logicielle combine trois techniques pour le stockage de données distribuées, la gestion décentralisée de méta-données et un contrôle d'accès aux données orienté sur le versioning.” Elle apporte la couche basse permettant de faire la couture entre l’environnement de programmation Map Reduce et l'infrastructure de cloud.
Au niveau applicatif, ces recherches vont permettre aux neurologues de conduire des expériences à grande échelle sur des bases gigantesques. Elles pourraient faciliter la découverte d'interactions entre certains gènes et certaines différences du fonctionnement ou de la forme du cerveau.

Mais l'histoire ne s'arrête pas là. Des liens se sont aussi tissés entre l'équipe de Rennes et le centre de recherche Microsoft de Cambridge, en Grande-Bretagne. “Nos travaux les intéressent. En particulier justement BlobSeer, notre gestionnaire de stockage de données à accès massivement concurrentiel sur cloud. En terme de rapidité d'exécution, notre technologie est actuellement 30% plus performante que Hadoop, la solution open source utilisée par exemple par Yahoo. Nous envisageons un nouveau projet collaboratif. Un de nos objectifs est de passer à du parallélisme multi data-center. Nous utiliserons donc des machines qui ne se situeront donc non plus à un seul endroit mais dans différentes fermes serveurs.

Mots-clés : Cloud Microsoft Azure brain Gabriel antoniu Kerdata Centre de recherche Inria Rennes - Bretagne Atlantique Cloud computing

Haut de page