N.S.I. WorkSpace Compétence,Notion,T-Th-E4,Terminale E4c – Le problème de l’alignement de séquences

E4c – Le problème de l’alignement de séquences

1 – Nature du problème

En génétique un problème récurent est celui de l’alignement de séquences.

Une séquence est une succession ordonnée d’éléments moléculaires élémentaires au sein d’une macro-molécule.

Par exemple, une molécule d’ADN est une macro-molécules constituée d’une succession ordonnée de nucléotides que l’on désigne par les lettres A, C, G et T (Ces lettres correspondent aux initiales des molécules appelées bases azotées – Adénine, Cytosine, Guanine et Thymine – qui sont présentes dans les nucléotides.)

Ainsi une séquence d’une molécule d’ADN s’écrit sous la forme d’une chaîne de caractères, comme ceci :

… ATGGCCGAGGTGTTGCGGACGCTGGCCGGAAAACCAAAATGCCACGCACTTCGACCTATGATCCTTTTCCTAATAATGCTTGTCTTGGTCTTGTTTGGTTACGGGGTCCTAAGCCCCAGAAGTCTAATGCCAGGAAGCCTGGAACGGGGGTTCTGCATGGCTGTTAGGGAACCTGACCATCTGCAGCGCGTCTCGTTGCCAAGGATGGTCTACCCCCAGCCAAAGGTGCTGACACCGTGTAGGAAGGATGTCCTCGTGGTGACCCCTTGGCTGGCTCCCATTGTCTGGGAGGGCACATTCAACATCGACATCCTCAACGAGCAGTTCAGGCTCCAGAACACCACCATTGGGTTAACTGTGTTTGCCATCAAGAAATACGTGGCTTTCCTGAAGCTGTTCCTGGAGACGGCGGAGAAGCACTTCATGGTGGGCCACCGTGTCCACTACTATGTCTTCACCGACCAGCCGGCCGCGGTGCCCCGCGTGACGCTGGGGACCGGTCGGCAGCTGTCAGTGCTGGAGGTGCGCGCCTACAAGCGCTGGCAGGACGTGTCCATGCGCCGCATGGAGATGATCAGTGACTTCTGCGAGCGGCGCTTCCTCAGCGAGGTGGATTACCTGGTGTGCGTGGACGTGGACATGGAGTTCCGCGACCACGTGGGCGTGGAGATCCTGACTCCGCTGTTCGGCACCCTGCACCCCGGCTTCTACGGAAGCAGCCGGGAGGCCTTCACCTACGAGCGCCGGCCCCAGTCCCAGGCCTACATCCCCAAGGACGAGGGCGATTTCTACTACCTGGGGGGGTTCTTCGGGGGGTCGGTGCAAGAGGTGCAGCGGCTCACCAGGGCCTGCCACCAGGCCATGATGGTCGACCAGGCCAACGGCATCGAGGCCGTGTGGCACGACGAGAGCCACCTGAACAAGTACCTGCTGCGCCACAAACCCACCAAGGTGCTCTCCCCCGAGTACTTGTGGGACCAGCAGCTGCTGGGCTGGCCCGCCGTCCTGAGGAAGCTGAGGTTCACTGCGGTGCCCAAGAACCACCAGGCGGTCCGGAACCCGTGA …

La séquence ci-dessus est celle du gène dont l’expression est à l’origine de l’appartenance d’une personne au groupe sanguin ‘A’.

La séquence ci-dessous est celle du gène dont l’expression est à l’origine de l’appartenance d’une personne au groupe sanguin ‘O’.

… ATGGCCGAGGTGTTGCGGACGCTGGCCGGAAAACCAAAATGCCACGCACTTCGACCTATGATCCTTTTCCTAATAATGCTTGTCTTGGTCTTGTTTGGTTACGGGGTCCTAAGCCCCAGAAGTCTAATGCCAGGAAGCCTGGAACGGGGGTTCTGCATGGCTGTTAGGGAACCTGACCATCTGCAGCGCGTCTCGTTGCCAAGGATGGTCTACCCCCAGCCAAAGGTGCTGACACCGTGTAGGAAGGATGTCCTCGTGGTACCCCTTGGCTGGCTCCCATTGTCTGGGAGGGCACATTCAACATCGACATCCTCAACGAGCAGTTCAGGCTCCAGAACACCACCATTGGGTTAACTGTGTTTGCCATCAAGAAATACGTGGCTTTCCTGAAGCTGTTCCTGGAGACGGCGGAGAAGCACTTCATGGTGGGCCACCGTGTCCACTACTATGTCTTCACCGACCAGCCGGCCGCGGTGCCCCGCGTGACGCTGGGGACCGGTCGGCAGCTGTCAGTGCTGGAGGTGCGCGCCTACAAGCGCTGGCAGGACGTGTCCATGCGCCGCATGGAGATGATCAGTGACTTCTGCGAGCGGCGCTTCCTCAGCGAGGTGGATTACCTGGTGTGCGTGGACGTGGACATGGAGTTCCGCGACCACGTGGGCGTGGAGATCCTGACTCCGCTGTTCGGCACCCTGCACCCCGGCTTCTACGGAAGCAGCCGGGAGGCCTTCACCTACGAGCGCCGGCCCCAGTCCCAGGCCTACATCCCCAAGGACGAGGGCGATTTCTACTACCTGGGGGGGTTCTTCGGGGGGTCGGTGCAAGAGGTGCAGCGGCTCACCAGGGCCTGCCACCAGGCCATGATGGTCGACCAGGCCAACGGCATCGAGGCCGTGTGGCACGACGAGAGCCACCTGAACAAGTACCTGCTGCGCCACAAACCCACCAAGGTGCTCTCCCCCGAGTACTTGTGGGACCAGCAGCTGCTGGGCTGGCCCGCCGTCCTGAGGAAGCTGAGGTTCACTGCGGTGCCCAAGAACCACCAGGCGGTCCGGAACCCGTGA …
Téléchargement d’un fichier : séquences ci-dessus au format txt (encodage UTF-8)

Aligner deux séquences consiste à mettre en correspondance le plus possible de « caractères » entre une séquence considérée comme étant celle de référence et l’autre séquence considérée comme la séquence dérivée de la première, d’un point de vue évolutif, en s’autorisant à introduire des ‘trous’ dans l’une ou l’autre des séquences.

Par exemple :

Avant alignement

Séquence de référence … ATTCGGTTACG …
Séquence dérivée… ATCGGATTCG …

Après alignement

Séquence de référence… ATTCGG_TTACG …
Séquence dérivée… AT_CGGATT_CG …

On pourrait envisager d’autres alignements possibles, comme celui-ci :

Séquence de référence… ATTCGGTTA__CG …
Séquence dérivée… A_TCGG__ATTCG …

Toutefois deux opérations sont interdites :

  • la première est de retirer un caractère de l’une des deux chaînes
  • et la seconde est d’aligner deux « trous » (c’est à dire deux caractères ‘_’).

L’alignement qui sera ‘choisi’ est celui qui donnera le meilleur ‘score’.

Le ‘score’ est calculé de la manière suivante :

  • l’alignement de deux caractères identiques donne 1 point ;
  • l’alignement de deux caractères différents enlève 1 point ;
  • l’alignement d’un caractère avec un « trou » (‘_’) enlève 1 point.

Par exemple, le score de cet alignement :

Séquence 1ATTCGGTTACG …
Séquence 2ATCGGATTCG …

est de +5 – 5 = 0.

Le score de celui-ci :

Séquence 1ATTCGG_TTACG
Séquence 2AT_CGGATT_CG

est de +9 – 3 = +6.

Et le score de celui-ci :

Séquence 1ATTCGGTTA__CG
Séquence 2A_TCGG__ATTCG

est de +8 – 5 = +3.

C’est donc le deuxième alignement qui sera retenu.

Calculer le score de l’alignement qui suit, puis chercher un alignement qui donne un meilleur score.

Séquence 1… CAAGTTCGAAC …
Séquence 2… ACAAGTCAACT …