ID
14978
Auteurs
Mathieu Giraud
Mikaël Salson
Introduction
Depuis le milieu des années 2000, les séquenceurs à haut débit sont devenus un outil indispensable à la recherche en biologie. Bientôt, ils serviront en médecine personnalisée. Traiter les données de ces séquenceurs demande des compétences pluridisciplinaires : connaissances biologiques, recherches théoriques en algorithmique du texte, ainsi que des implémentations et technologies adaptées.
Domaines applicatifs

Les séquenceurs à haut débit

Contenu
Salle des séquenceurs au Genoscope à Évry.
Photo © CNRS Photothèque - Hubert Raguet.

Le génome d’un être vivant est une suite de petites molécules, les nucléotides, de quatre types différents, notés par les initiales A, C, G et T de leurs bases azotées. La succession de ces nucléotides constitue la molécule d’ADN. Au sein de chacune des cellules de tout organisme vivant, l’ADN code ainsi l’information nécessaire à l’organisme pour se développer, se maintenir et se reproduire. En temps normal, toutes les cellules d'un même individu ont exactement, ou presque, le même génome. De plus, ce génome est identique à plus de 99% au sein de l'espèce humaine. Les génomes font de quelques milliers de bases pour les virus et quelques millions pour les bactéries (4,6 mégabases (Mb) pour la bactérie Escherichia coli) à quelques milliards pour les organismes pluri-cellulaires (3,4 gigabases (Gb) pour l’homme).

Le séquençage est la lecture de la succession des nucléotides le long d’une molécule d’ADN. Le résultat produit est un texte écrit dans l’alphabet A, C, G, T. Les séquenceurs lisent des fragments de plusieurs bases, appelés reads, dont la longueur varie en fonction des technologies. Le génome s’obtient ensuite par assemblage des reads.

[caption id="attachment_27604" align="aligncenter" width="600"] Séquençage de génome par assemblage de reads.
L'assemblage des trois reads, par la mise en correspondance de leurs points communs, permet d'obtenir une séquence plus longue. C'est le point de départ de l'obtention de la séquence d'un génome complet.[/caption]

Depuis 2005, les nouvelles technologies de séquençage ont révolutionné ce domaine, et soulèvent de nouveaux défis aux informaticiens. Nous présentons ici les techniques de séquençage, leurs utilisations, et quelques problèmes et solutions informatiques s’y rapportant.

Le séquençage d’ADN

[caption id="" align="alignleft" width="230"] Séquençage par méthode de Sanger, produisant ici un read de 21 bases.[/caption] Méthode de Sanger

La méthode de séquençage de Sanger a été mise au point en 1976. La séquence d’ADN est polymérisée en quatre ensembles de fragments de différentes tailles, chaque ensemble terminant sur une des 4 bases. Les fragments migrent ensuite dans un gel, ce qui permet de détecter leur longueur et de lire la séquence. Cette méthode a été optimisée et automatisée durant plus de 25 ans. C’est ainsi qu’en 1995, le premier génome d’un organisme vivant, la bactérie H. influenzae, a été entièrement séquencé et qu’en 2001, une première version du génome de référence pour l’espèce humaine était obtenue. Un séquenceur mettait alors près de 10 heures pour produire des reads de 500 à 600 bases dans 96 tubes de verre de quelques microns de diamètre appelés capillaires. Son débit était donc d'environ 115 kilobases (Kb) par jour.

Les séquenceurs à haut débit

Au début des années 2000, quelques études proposent de nouvelles technologies qui révolutionnent le séquençage. Il ne s’agit plus de mesurer la longueur de certains fragments, mais de lire directement la séquence d’ADN, base par base, par cycles successifs. Ces recherches ont été extrêmement vite transférées, et des séquenceurs à haut débit ont été proposés sur le marché à partir de 2004 (voir tableau ci-dessous). Toutes ces techniques traitent les bases une par une, en alternant des réactions chimiques couplées à une détection optique et des phases de nettoyage.

Société Roche Applied Biosystems Illumina
Séquenceur 454 Titanium Solid 5500 HiSeq 2000
Technique Incorporation de bases et lumière produite par oxydation de la luciférine. Ligation de sondes contenant des paires de bases. Incorporation de bases étiquetées par des couleurs différentes.
Longueur des reads ~ 400 bases ~ 75 bases ~ 100 bases
Erreurs fréquentes insertions substitutions substitutions
Débit annoncé ~ 1 Gb / jour ~ 10 Gb / jour ~ 50 Gb / jour

Comparaison des caractéristiques de différents séquenceurs à haut débit.

Évolution du coût et de la capacité [caption id="" align="alignright" width="320"] Le coût du séquençage a été considérablement réduit ces dix dernières années.[/caption]

Par ces nouvelles techniques, les séquenceurs à haut débit ont permis une vraie rupture dans les quantités de données produites, qui font plus que décupler chaque année ! Ces séquenceurs coûtent aujourd’hui plusieurs centaines de milliers d’euros à l’achat, auxquels il faut ajouter le coût des réactifs. Une expérience (un run) nécessite quelques milliers d’euros de matériel. La préparation des échantillons prend plusieurs heures voire plusieurs journées.

Le plus grand centre de séquençage au monde, le Beijing Genome Institute (BGI), en Chine, possède actuellement 137 Illumina HiSeq 2000 et 27 AB Solid 4.0. En France, le Genoscope, à Évry, est le principal centre de séquençage, mais d’autres plateformes, à Paris et en région, ont des capacités intéressantes.

De nouvelles technologies sont attendues dans les prochaines années, pour améliorer le débit et la qualité des résultats, et baisser les coûts et le temps de préparation. Par exemple, la société Ion Torrent, rachetée par Roche en 2010, propose une technique de séquençage couplée à un microprocesseur sur silicium, qui permet de se passer de l’étape de détection optique.

Séquencer, pour quoi faire ?

Utilisation directe

Le séquençage du premier génome humain, de 1998 à 2003, n’a pas arrêté les besoins de séquençage, bien au contraire. Aujourd’hui, de nombreuses études se focalisent sur le polymorphisme, c’est-à-dire sur les variations entre plusieurs individus. Le projet 1000 Genomes, débuté en 2008, a pour objectif de séquencer le génome de 2500 personnes, afin d’identifier les spécificités de chacun. Avant la fin de notre décennie, nous arriverons au génome à 1000 $, et ce coût peut encore baisser. Cela rend possible la médecine personnalisée, le but étant de prescrire des traitements adaptés aux spécificités génétiques de chacun et à leurs impacts, par exemple sur le métabolisme. Dans ces applications, on parle de reséquençage, car la séquence de chaque individu est très proche du génome de référence de l’espèce.

En dehors de l’homme, seulement un millier d’espèces a été séquencé, ce qui est peu comparé aux millions d’espèces connues. De plus, une nouvelle discipline a fait son apparition dans les années 2000 : la métagénomique étudie des séquences d’ADN d’un écosystème dans son ensemble, sans séparation des espèces ni des individus, que cela soit dans des milieux naturels (océan, terre) ou bien chez l’homme (flore intestinale). Étudier des métagénomes permet aussi de découvrir de nouvelles séquences, parfois provenant d’espèces inconnues.

Utilisations dérivées

Les résultats du séquençage ouvrent d'autres perspectives de recherche. Lorsqu'on connaît déjà un génome de référence, par exemple le génome humain, le séquençage sert à obtenir un ensemble de reads qui, une fois localisés, traduisent un phénomène biologique. On passe ainsi du séquençage au décryptage du génome.

Par exemple, les études de transcriptomique examinent tous les ARN produits par une cellule à un instant donné. En fonction du nombre de reads localisés à un même endroit, il est possible de comprendre quelles sont les parties du génome les plus actives en fonction des différents tissus (comme le rein, le cerveau ou la rétine) et de leur environnement.

[caption id="" align="aligncenter" width="600"] Les techniques de transcriptomique par RNAseq permettent de mesurer les niveaux d'expression de différents gènes, en localisant les reads issus d'ARN messager sur le génome. Ici, le gène 2 est fortement exprimé, tandis que le gène 3 l'est faiblement.[/caption]

D’autres études concernent les sites de fixation des facteurs de transcription, ou bien la chromatine (la structure à grande échelle de l’ADN). Dans de nombreuses applications, le séquençage à haut débit est ainsi en train de remplacer d’autres techniques moins flexibles telles que les puces à ADN.

Défis algorithmiques

Algorithmique du texte

La bioinformatique des séquences est un bel exemple de transfert de recherche fondamentale en combinatoire vers une recherche appliquée. En effet, la recherche de mots dans un texte est un problème déjà ancien d’algorithmique du texte, étudié dès les années 1970. Aujourd’hui, ces techniques sont utilisées dans les traitements de texte (pour rechercher un mot dans une page) ou dans les moteurs de recherche (pour rechercher les pages web où apparaît un mot). Un read n’étant qu’un fragment d’un génome, il est généralement possible de retrouver sa localisation d’origine si on dispose du génome de référence de l’espèce. Dans toutes ces situations, il s’agit donc de trouver des occurrences d’une courte chaîne dans un très long texte, le texte pouvant être un ensemble de pages web ou bien un ou plusieurs génomes.

Mutations

Il est souvent utile de faire des recherches approximatives, c’est-à-dire de retrouver la courte chaîne recherchée, y compris avec des erreurs, comme par exemple des erreurs orthographiques. Pour les séquences d’ADN, les différences entre chaînes similaires sont appelées les mutations.

Contenu
Salle des séquenceurs au Genoscope à Évry.
Photo © CNRS Photothèque - Hubert Raguet.

Le génome d’un être vivant est une suite de petites molécules, les nucléotides, de quatre types différents, notés par les initiales A, C, G et T de leurs bases azotées. La succession de ces nucléotides constitue la molécule d’ADN. Au sein de chacune des cellules de tout organisme vivant, l’ADN code ainsi l’information nécessaire à l’organisme pour se développer, se maintenir et se reproduire. En temps normal, toutes les cellules d'un même individu ont exactement, ou presque, le même génome. De plus, ce génome est identique à plus de 99% au sein de l'espèce humaine. Les génomes font de quelques milliers de bases pour les virus et quelques millions pour les bactéries (4,6 mégabases (Mb) pour la bactérie Escherichia coli) à quelques milliards pour les organismes pluri-cellulaires (3,4 gigabases (Gb) pour l’homme).

Le séquençage est la lecture de la succession des nucléotides le long d’une molécule d’ADN. Le résultat produit est un texte écrit dans l’alphabet A, C, G, T. Les séquenceurs lisent des fragments de plusieurs bases, appelés reads, dont la longueur varie en fonction des technologies. Le génome s’obtient ensuite par assemblage des reads.

[caption id="attachment_27604" align="aligncenter" width="600"] Séquençage de génome par assemblage de reads.
L'assemblage des trois reads, par la mise en correspondance de leurs points communs, permet d'obtenir une séquence plus longue. C'est le point de départ de l'obtention de la séquence d'un génome complet.[/caption]

Depuis 2005, les nouvelles technologies de séquençage ont révolutionné ce domaine, et soulèvent de nouveaux défis aux informaticiens. Nous présentons ici les techniques de séquençage, leurs utilisations, et quelques problèmes et solutions informatiques s’y rapportant.

Le séquençage d’ADN

[caption id="" align="alignleft" width="230"] Séquençage par méthode de Sanger, produisant ici un read de 21 bases.[/caption] Méthode de Sanger

La méthode de séquençage de Sanger a été mise au point en 1976. La séquence d’ADN est polymérisée en quatre ensembles de fragments de différentes tailles, chaque ensemble terminant sur une des 4 bases. Les fragments migrent ensuite dans un gel, ce qui permet de détecter leur longueur et de lire la séquence. Cette méthode a été optimisée et automatisée durant plus de 25 ans. C’est ainsi qu’en 1995, le premier génome d’un organisme vivant, la bactérie H. influenzae, a été entièrement séquencé et qu’en 2001, une première version du génome de référence pour l’espèce humaine était obtenue. Un séquenceur mettait alors près de 10 heures pour produire des reads de 500 à 600 bases dans 96 tubes de verre de quelques microns de diamètre appelés capillaires. Son débit était donc d'environ 115 kilobases (Kb) par jour.

Les séquenceurs à haut débit

Au début des années 2000, quelques études proposent de nouvelles technologies qui révolutionnent le séquençage. Il ne s’agit plus de mesurer la longueur de certains fragments, mais de lire directement la séquence d’ADN, base par base, par cycles successifs. Ces recherches ont été extrêmement vite transférées, et des séquenceurs à haut débit ont été proposés sur le marché à partir de 2004 (voir tableau ci-dessous). Toutes ces techniques traitent les bases une par une, en alternant des réactions chimiques couplées à une détection optique et des phases de nettoyage.

Société Roche Applied Biosystems Illumina
Séquenceur 454 Titanium Solid 5500 HiSeq 2000
Technique Incorporation de bases et lumière produite par oxydation de la luciférine. Ligation de sondes contenant des paires de bases. Incorporation de bases étiquetées par des couleurs différentes.
Longueur des reads ~ 400 bases ~ 75 bases ~ 100 bases
Erreurs fréquentes insertions substitutions substitutions
Débit annoncé ~ 1 Gb / jour ~ 10 Gb / jour ~ 50 Gb / jour

Comparaison des caractéristiques de différents séquenceurs à haut débit.

Évolution du coût et de la capacité [caption id="" align="alignright" width="320"] Le coût du séquençage a été considérablement réduit ces dix dernières années.[/caption]

Par ces nouvelles techniques, les séquenceurs à haut débit ont permis une vraie rupture dans les quantités de données produites, qui font plus que décupler chaque année ! Ces séquenceurs coûtent aujourd’hui plusieurs centaines de milliers d’euros à l’achat, auxquels il faut ajouter le coût des réactifs. Une expérience (un run) nécessite quelques milliers d’euros de matériel. La préparation des échantillons prend plusieurs heures voire plusieurs journées.

Le plus grand centre de séquençage au monde, le Beijing Genome Institute (BGI), en Chine, possède actuellement 137 Illumina HiSeq 2000 et 27 AB Solid 4.0. En France, le Genoscope, à Évry, est le principal centre de séquençage, mais d’autres plateformes, à Paris et en région, ont des capacités intéressantes.

De nouvelles technologies sont attendues dans les prochaines années, pour améliorer le débit et la qualité des résultats, et baisser les coûts et le temps de préparation. Par exemple, la société Ion Torrent, rachetée par Roche en 2010, propose une technique de séquençage couplée à un microprocesseur sur silicium, qui permet de se passer de l’étape de détection optique.

Séquencer, pour quoi faire ?

Utilisation directe

Le séquençage du premier génome humain, de 1998 à 2003, n’a pas arrêté les besoins de séquençage, bien au contraire. Aujourd’hui, de nombreuses études se focalisent sur le polymorphisme, c’est-à-dire sur les variations entre plusieurs individus. Le projet 1000 Genomes, débuté en 2008, a pour objectif de séquencer le génome de 2500 personnes, afin d’identifier les spécificités de chacun. Avant la fin de notre décennie, nous arriverons au génome à 1000 $, et ce coût peut encore baisser. Cela rend possible la médecine personnalisée, le but étant de prescrire des traitements adaptés aux spécificités génétiques de chacun et à leurs impacts, par exemple sur le métabolisme. Dans ces applications, on parle de reséquençage, car la séquence de chaque individu est très proche du génome de référence de l’espèce.

En dehors de l’homme, seulement un millier d’espèces a été séquencé, ce qui est peu comparé aux millions d’espèces connues. De plus, une nouvelle discipline a fait son apparition dans les années 2000 : la métagénomique étudie des séquences d’ADN d’un écosystème dans son ensemble, sans séparation des espèces ni des individus, que cela soit dans des milieux naturels (océan, terre) ou bien chez l’homme (flore intestinale). Étudier des métagénomes permet aussi de découvrir de nouvelles séquences, parfois provenant d’espèces inconnues.

Utilisations dérivées

Les résultats du séquençage ouvrent d'autres perspectives de recherche. Lorsqu'on connaît déjà un génome de référence, par exemple le génome humain, le séquençage sert à obtenir un ensemble de reads qui, une fois localisés, traduisent un phénomène biologique. On passe ainsi du séquençage au décryptage du génome.

Par exemple, les études de transcriptomique examinent tous les ARN produits par une cellule à un instant donné. En fonction du nombre de reads localisés à un même endroit, il est possible de comprendre quelles sont les parties du génome les plus actives en fonction des différents tissus (comme le rein, le cerveau ou la rétine) et de leur environnement.

[caption id="" align="aligncenter" width="600"] Les techniques de transcriptomique par RNAseq permettent de mesurer les niveaux d'expression de différents gènes, en localisant les reads issus d'ARN messager sur le génome. Ici, le gène 2 est fortement exprimé, tandis que le gène 3 l'est faiblement.[/caption]

D’autres études concernent les sites de fixation des facteurs de transcription, ou bien la chromatine (la structure à grande échelle de l’ADN). Dans de nombreuses applications, le séquençage à haut débit est ainsi en train de remplacer d’autres techniques moins flexibles telles que les puces à ADN.

Défis algorithmiques

Algorithmique du texte

La bioinformatique des séquences est un bel exemple de transfert de recherche fondamentale en combinatoire vers une recherche appliquée. En effet, la recherche de mots dans un texte est un problème déjà ancien d’algorithmique du texte, étudié dès les années 1970. Aujourd’hui, ces techniques sont utilisées dans les traitements de texte (pour rechercher un mot dans une page) ou dans les moteurs de recherche (pour rechercher les pages web où apparaît un mot). Un read n’étant qu’un fragment d’un génome, il est généralement possible de retrouver sa localisation d’origine si on dispose du génome de référence de l’espèce. Dans toutes ces situations, il s’agit donc de trouver des occurrences d’une courte chaîne dans un très long texte, le texte pouvant être un ensemble de pages web ou bien un ou plusieurs génomes.

Mutations

Il est souvent utile de faire des recherches approximatives, c’est-à-dire de retrouver la courte chaîne recherchée, y compris avec des erreurs, comme par exemple des erreurs orthographiques. Pour les séquences d’ADN, les différences entre chaînes similaires sont appelées les mutations.

ID
14978
Auteurs
Mathieu Giraud
Mikaël Salson
Introduction
Depuis le milieu des années 2000, les séquenceurs à haut débit sont devenus un outil indispensable à la recherche en biologie. Bientôt, ils serviront en médecine personnalisée. Traiter les données de ces séquenceurs demande des compétences pluridisciplinaires : connaissances biologiques, recherches théoriques en algorithmique du texte, ainsi que des implémentations et technologies adaptées.
Contenu
Salle des séquenceurs au Genoscope à Évry.
Photo © CNRS Photothèque - Hubert Raguet.

Le génome d’un être vivant est une suite de petites molécules, les nucléotides, de quatre types différents, notés par les initiales A, C, G et T de leurs bases azotées. La succession de ces nucléotides constitue la molécule d’ADN. Au sein de chacune des cellules de tout organisme vivant, l’ADN code ainsi l’information nécessaire à l’organisme pour se développer, se maintenir et se reproduire. En temps normal, toutes les cellules d'un même individu ont exactement, ou presque, le même génome. De plus, ce génome est identique à plus de 99% au sein de l'espèce humaine. Les génomes font de quelques milliers de bases pour les virus et quelques millions pour les bactéries (4,6 mégabases (Mb) pour la bactérie Escherichia coli) à quelques milliards pour les organismes pluri-cellulaires (3,4 gigabases (Gb) pour l’homme).

Le séquençage est la lecture de la succession des nucléotides le long d’une molécule d’ADN. Le résultat produit est un texte écrit dans l’alphabet A, C, G, T. Les séquenceurs lisent des fragments de plusieurs bases, appelés reads, dont la longueur varie en fonction des technologies. Le génome s’obtient ensuite par assemblage des reads.

[caption id="attachment_27604" align="aligncenter" width="600"] Séquençage de génome par assemblage de reads.
L'assemblage des trois reads, par la mise en correspondance de leurs points communs, permet d'obtenir une séquence plus longue. C'est le point de départ de l'obtention de la séquence d'un génome complet.[/caption]

Depuis 2005, les nouvelles technologies de séquençage ont révolutionné ce domaine, et soulèvent de nouveaux défis aux informaticiens. Nous présentons ici les techniques de séquençage, leurs utilisations, et quelques problèmes et solutions informatiques s’y rapportant.

Le séquençage d’ADN

[caption id="" align="alignleft" width="230"] Séquençage par méthode de Sanger, produisant ici un read de 21 bases.[/caption] Méthode de Sanger

La méthode de séquençage de Sanger a été mise au point en 1976. La séquence d’ADN est polymérisée en quatre ensembles de fragments de différentes tailles, chaque ensemble terminant sur une des 4 bases. Les fragments migrent ensuite dans un gel, ce qui permet de détecter leur longueur et de lire la séquence. Cette méthode a été optimisée et automatisée durant plus de 25 ans. C’est ainsi qu’en 1995, le premier génome d’un organisme vivant, la bactérie H. influenzae, a été entièrement séquencé et qu’en 2001, une première version du génome de référence pour l’espèce humaine était obtenue. Un séquenceur mettait alors près de 10 heures pour produire des reads de 500 à 600 bases dans 96 tubes de verre de quelques microns de diamètre appelés capillaires. Son débit était donc d'environ 115 kilobases (Kb) par jour.

Les séquenceurs à haut débit

Au début des années 2000, quelques études proposent de nouvelles technologies qui révolutionnent le séquençage. Il ne s’agit plus de mesurer la longueur de certains fragments, mais de lire directement la séquence d’ADN, base par base, par cycles successifs. Ces recherches ont été extrêmement vite transférées, et des séquenceurs à haut débit ont été proposés sur le marché à partir de 2004 (voir tableau ci-dessous). Toutes ces techniques traitent les bases une par une, en alternant des réactions chimiques couplées à une détection optique et des phases de nettoyage.

Société Roche Applied Biosystems Illumina
Séquenceur 454 Titanium Solid 5500 HiSeq 2000
Technique Incorporation de bases et lumière produite par oxydation de la luciférine. Ligation de sondes contenant des paires de bases. Incorporation de bases étiquetées par des couleurs différentes.
Longueur des reads ~ 400 bases ~ 75 bases ~ 100 bases
Erreurs fréquentes insertions substitutions substitutions
Débit annoncé ~ 1 Gb / jour ~ 10 Gb / jour ~ 50 Gb / jour

Comparaison des caractéristiques de différents séquenceurs à haut débit.

Évolution du coût et de la capacité [caption id="" align="alignright" width="320"] Le coût du séquençage a été considérablement réduit ces dix dernières années.[/caption]

Par ces nouvelles techniques, les séquenceurs à haut débit ont permis une vraie rupture dans les quantités de données produites, qui font plus que décupler chaque année ! Ces séquenceurs coûtent aujourd’hui plusieurs centaines de milliers d’euros à l’achat, auxquels il faut ajouter le coût des réactifs. Une expérience (un run) nécessite quelques milliers d’euros de matériel. La préparation des échantillons prend plusieurs heures voire plusieurs journées.

Le plus grand centre de séquençage au monde, le Beijing Genome Institute (BGI), en Chine, possède actuellement 137 Illumina HiSeq 2000 et 27 AB Solid 4.0. En France, le Genoscope, à Évry, est le principal centre de séquençage, mais d’autres plateformes, à Paris et en région, ont des capacités intéressantes.

De nouvelles technologies sont attendues dans les prochaines années, pour améliorer le débit et la qualité des résultats, et baisser les coûts et le temps de préparation. Par exemple, la société Ion Torrent, rachetée par Roche en 2010, propose une technique de séquençage couplée à un microprocesseur sur silicium, qui permet de se passer de l’étape de détection optique.

Séquencer, pour quoi faire ?

Utilisation directe

Le séquençage du premier génome humain, de 1998 à 2003, n’a pas arrêté les besoins de séquençage, bien au contraire. Aujourd’hui, de nombreuses études se focalisent sur le polymorphisme, c’est-à-dire sur les variations entre plusieurs individus. Le projet 1000 Genomes, débuté en 2008, a pour objectif de séquencer le génome de 2500 personnes, afin d’identifier les spécificités de chacun. Avant la fin de notre décennie, nous arriverons au génome à 1000 $, et ce coût peut encore baisser. Cela rend possible la médecine personnalisée, le but étant de prescrire des traitements adaptés aux spécificités génétiques de chacun et à leurs impacts, par exemple sur le métabolisme. Dans ces applications, on parle de reséquençage, car la séquence de chaque individu est très proche du génome de référence de l’espèce.

En dehors de l’homme, seulement un millier d’espèces a été séquencé, ce qui est peu comparé aux millions d’espèces connues. De plus, une nouvelle discipline a fait son apparition dans les années 2000 : la métagénomique étudie des séquences d’ADN d’un écosystème dans son ensemble, sans séparation des espèces ni des individus, que cela soit dans des milieux naturels (océan, terre) ou bien chez l’homme (flore intestinale). Étudier des métagénomes permet aussi de découvrir de nouvelles séquences, parfois provenant d’espèces inconnues.

Utilisations dérivées

Les résultats du séquençage ouvrent d'autres perspectives de recherche. Lorsqu'on connaît déjà un génome de référence, par exemple le génome humain, le séquençage sert à obtenir un ensemble de reads qui, une fois localisés, traduisent un phénomène biologique. On passe ainsi du séquençage au décryptage du génome.

Par exemple, les études de transcriptomique examinent tous les ARN produits par une cellule à un instant donné. En fonction du nombre de reads localisés à un même endroit, il est possible de comprendre quelles sont les parties du génome les plus actives en fonction des différents tissus (comme le rein, le cerveau ou la rétine) et de leur environnement.

[caption id="" align="aligncenter" width="600"] Les techniques de transcriptomique par RNAseq permettent de mesurer les niveaux d'expression de différents gènes, en localisant les reads issus d'ARN messager sur le génome. Ici, le gène 2 est fortement exprimé, tandis que le gène 3 l'est faiblement.[/caption]

D’autres études concernent les sites de fixation des facteurs de transcription, ou bien la chromatine (la structure à grande échelle de l’ADN). Dans de nombreuses applications, le séquençage à haut débit est ainsi en train de remplacer d’autres techniques moins flexibles telles que les puces à ADN.

Défis algorithmiques

Algorithmique du texte

La bioinformatique des séquences est un bel exemple de transfert de recherche fondamentale en combinatoire vers une recherche appliquée. En effet, la recherche de mots dans un texte est un problème déjà ancien d’algorithmique du texte, étudié dès les années 1970. Aujourd’hui, ces techniques sont utilisées dans les traitements de texte (pour rechercher un mot dans une page) ou dans les moteurs de recherche (pour rechercher les pages web où apparaît un mot). Un read n’étant qu’un fragment d’un génome, il est généralement possible de retrouver sa localisation d’origine si on dispose du génome de référence de l’espèce. Dans toutes ces situations, il s’agit donc de trouver des occurrences d’une courte chaîne dans un très long texte, le texte pouvant être un ensemble de pages web ou bien un ou plusieurs génomes.

Mutations

Il est souvent utile de faire des recherches approximatives, c’est-à-dire de retrouver la courte chaîne recherchée, y compris avec des erreurs, comme par exemple des erreurs orthographiques. Pour les séquences d’ADN, les différences entre chaînes similaires sont appelées les mutations.

Domaines applicatifs