Sites Inria

Logiciel - Bioinformatique

Jean-Michel Prima - 27/09/2011

Un logiciel qui accélère le mapping génétique

Dominique Lavenier, responsable de l'équipe-projet Inria Symbiose

Développé par Symbiose, une équipe de recherche du centre Rennes - Bretagne Atlantique, GASSST permet de traiter rapidement l'information produite par les séquenceurs de dernière génération. L'outil vient d'intégrer la suite logicielle de GenomeQuest, une société américaine de bio-informatique. Rencontre avec Dominique Lavenier, chercheur à l'origine de ce nouvel outil au service des biologistes.

Nous sommes dans l'ère NGS, le séquençage nouvelle génération. Les séquenceurs sont des machines capables de déchiffrer les textes des génomes. En simplifiant, en entrée, elles reçoivent une molécule d'ADN. En sortie, elles produisent des millions de petits textes sur un alphabet à 4 caractères : ATGC. Ces textes représentent l'information génétique mais fragmentée en une multitude de morceaux. Le logiciel que nous venons de concevoir dans l'équipe-projet Symbiose est un outil parmi bien d'autres pour le traitement de ces données bio-informatiques. Cette brique permet de comparer très efficacement ces millions de petits textes avec un texte de référence. "

Mis au point il y a moins d'un an et disponible en open source sur la plate-forme Genouest, GASSST sert par exemple lorsque des biologistes comparent des souches différentes d'un même génome." En référent, ils disposent d'une souche connue, emmagasinée dans les banques de séquences. Après le séquençage d'une nouvelle souche, on prend donc ces millions de petits textes. On les re-positionne sur la référente. On regarde où cela correspond et où cela diffère. Entre deux souches d'une même espèce, cette différence ne présente parfois que de petites variations par endroit. Grâce à ce type de logiciel, on peut les détecter. De la même manière, l'outil peut détecter des variations entre un génome humain de référence et celui d'un patient et ainsi contribuer à l'étude des maladies rares.

5 à 10 fois plus vite

GASSST vient aussi d'être intégré dans la suite d'applications commercialisée par GenomeQuest, une société leader de la recherche de bioséquences. “Je connais Jean-Jacques Codani, le directeur scientifique, de longue date. Je suis allé lui présenter nos travaux. Ils possédaient un logiciel de mapping équivalent. Mais ils ont souhaité tester le nôtre. L'intérêt est apparu tout de suite : le nouvel outil va 5 à 10 fois plus vite. Cette rapidité est extrêmement importante au regard du volume à traiter. La quantité de données double tous les six mois. A ce rythme, un traitement qui dure aujourd'hui une heure demandera une journée entière dans trois ans. Il y a donc un vrai enjeu économique.

À la sortie des séquenceurs, GASSST est une brique logicielle qui permet de déduire des endroits de différentiations de données entre génomes.

D’où vient ce gain de performance? “De notre connaissance du hardware , explique Dominique Lavenier. Nous possédons cette expertise du matériel. Dans l'équipe, il nous arrive de produire nos propres cartes par exemple. Nous connaissons bien la structure des processeurs, ce qui permet de concevoir un logiciel qui épouse au plus près leurs spécificités. Nous faisons travailler à fond tous les cœurs. Une partie de la rapidité provient aussi de notre connaissance fine de la structure hiérarchique de la mémoire. Une autre, du fait que nous détournons le jeu d'instructions vectorielles de l'ordinateur. Prévues pour le traitement graphique, ces instructions permettent de gérer plusieurs pixels. Grâces à elles, nous traitons plusieurs caractères en même temps. Plutôt qu'une seule instruction par cycle, nous en faisons donc plusieurs.

Autre avantage du logiciel : sa précision. “Quand on fait du mapping, soit on recherche exactement la même suite de caractères, soit on s'autorise par exemple une, deux ou trois erreurs entre la séquence référence et celle mise en regard. Dans ce mapping approché, les algorithmes sont beaucoup plus coûteux. Impossible aujourd'hui de se permettre une recherche exhaustive. On recourt à des heuristiques pour aller plus vite aux meilleurs endroits. Sauf que parfois... on rate ces suites de caractères. La précision se mesure sur le nombre d'endroits ratés. Là aussi, notre outil s'avère très bon par rapport aux autres. C'est également ce qui a motivé son intégration dans GenomeQuest.

L'industriel ne s'est cependant pas contenté d'acquérir une licence commerciale. “Il a participé à la mise au point. Il a financé trois mois de développement pour un doctorant. Par ailleurs, l'entreprise a voulu tester sur de gros volumes et des données réelles. Cet échange a joué un rôle très bénéfique. Il nous a apporté un retour d'expérience immédiat pour effectuer du debugging et réaliser un produit réellement utilisable en conditions de production. Dans notre domaine, le contact avec l'utilisateur final est indispensable si on veut fabriquer les bons outils. Nous espérons d'ailleurs continuer à travailler avec GenomeQuest et structurer une collaboration forte sur d'autres problématiques. En bio-informatique, cela évolue très vite. Dans 5 ans, nous utiliserons probablement d'autres techniques.

Mots-clés : Dominique Lavenier GASSST GenomeQuest Plateforme Genouest ADN Séquençage INRIA Rennes - Bretagne Atlantique Symbiose Logiciel Bioinformatique

Haut de page

Suivez Inria