Sites Inria

Bioinformatique - Logiciel

Jean-Michel Prima - 1/03/2012

KoriPlast : un logiciel pour exploiter les bases de données génomiques

PME bretonne de bio-informatique, Korilog édite des outils qui aident les biologistes à analyser les séquences d'ADN et de protéines. Elle débute avec l'équipe de recherche Genscale une collaboration visant à développer une solution pour gérer la pléthore d'informations issues du séquençage de nouvelle génération. Rencontre avec son fondateur, Patrick Durand.

Blast? C'est le Google de la bio-informatique , explique Patrick Durand. Développé par le NCBI américain, ce serveur permet de comparer les séquences d'ADN et de protéines accumulées par les scientifiques du monde entier depuis bientôt 40 ans. Il se présente sous la forme d'un site web que l'on peut interroger à distance mais il est aussi disponible en téléchargement pour une utilisation en local. A la sortie des machines de séquençage, quand on passe de la biochimie à l'informatique, on récupère de grandes masses de textes composées de quatre lettres : ATGC. Elles symbolisent les quatre constituants de la molécule : adémine, thymine, guanime et cytosine. Ce texte volumineux peut être vu comme du signal. Il contient de l'information. Toute la difficulté consiste à la mettre en évidence. La force de Blast réside dans son très bon algorithme qui permet justement d'identifier ce signal caché, de localiser ces signatures. ”  Dans le monde de la biologie, ce moteur est tellement incontournable qu'il a fini par devenir un verbe. Quand on compare des séquences, on ‘blaste’.
Cela dit, l'outil connaît aussi des limites. “La puissance de calcul des serveurs publics ne permet pas de répondre à tous les besoins. Par ailleurs, l'exploitation des résultats reste ardue.” C'est donc pour faciliter l'emploi de Blast que l'entreprise Korilog a vu le jour en 2007 autour d'un logiciel complémentaire baptisé KoriBlast. “L'idée, c'était de proposer une plate-forme et un outil graphique capable d'aller au-delà pour aider les biologistes à gérer leurs projets de recherche dans ces banques de données toujours plus vastes. Il y a 10 ans, le biologiste comparait quelques séquences. Maintenant il en a des millions. La gestion de ces données prend donc une importance accrue si l'on veut  pouvoir comparer et analyser efficacement.

“Nos clients sont des centres de recherche et des laboratoires R&D en agronomie, en cosmétique, en génomique animale, végétale ou microbienne. Cela va de l'Institut Mérieux à l'Ifremer. Nous vendons aussi au Japon, aux USA...”

Sur serveurs publics ou en local

Exemple ? “Quand un biologiste veut blaster une grande quantité de séquences contre les banques du NCBI ou de l'EBI, son alter-ego européen, il peut difficilement mobiliser d'un seul coup autant de ressources en calcul pour lui seul. Il doit étaler dans le temps. Ce qui le contraint à écrire un programme adhoc en lignes de commande. Or ce n'est pas son métier. Notre outil offre ce genre de fonctionnalités. KoriBlast propose un système de batch adaptable en fonction de la ressource. Par ailleurs, on peut aussi choisir de ne pas blaster sur les serveurs publics, mais de travailler en local après avoir téléchargé des banques de séquences. Beaucoup de laboratoires optent pour cette option quand ils ne veulent pas communiquer leurs propres données. Notre logiciel fonctionne aussi dans cette configuration. Enfin, Koriblast peut se brancher sur un cluster de calcul. Il est ainsi disponible, par exemple, sur la plateforme GenOuest. Nous utilisons d'ailleurs pour ce faire des composants logiciels conçus par Inria .”

L'autre valeur ajoutée du logiciel réside dans ses capacités d'analyse métagénomique. “Nous ne nous intéressons pas aux séquences seules. Nous corrélons aussi les informations connues à leur sujet : de quel organisme elles proviennent, à quoi elles servent, quelles sont les mutations... Le logiciel met en évidence ces fonctions. Il produit donc des rapports plus directement exploitables.

P comme parallèle

 Pour l'entreprise, l'objectif est maintenant de passer à une autre échelle : “permettre aux biologistes non plus seulement de comparer une séquence à des millions d'autres, mais aussi des banques entières les unes aux autres. ” Or Blast n'est pas optimisé pour ce travail. “Son algorithme n'est pas conçu pour exploiter au mieux l'architecture multicœurs des ordinateurs actuels. Ce domaine est précisément une des spécialités de Genscale ”, une équipe que Patrick Durand connaît bien pour y avoir travaillé pendant trois ans comme ingénieur. “Nous trouvons à Inria une compétence pointue qui va nous aider à faire évoluer notre technologie vers de plus en plus de parallélisation. ”  Baptisé Koriplast, le projet collaboratif entre le centre de recherche Inria de Rennes et l'entreprise va durer 18 mois. “Nous bénéficions du concours du CRITT Santé Bretagne. Concrètement, la Région finance 50% du projet total. Le recrutement d'un ingénieur devrait intervenir à la rentrée.

Mots-clés : Koriplast Patrick Durand Genscale Symbiose Logiciel ADN Inria Rennes - Bretagne Atlantique

Haut de page

Suivez Inria