matrices de substitution introduction à la bioinformatique jacques van helden...

24
Matrices de substitution Introduction à la bioinformatique Jacques van Helden [email protected] Université d’Aix-Marseille, France Lab. Technological Advances for Genomics and Clinics (TAGC, INSERM Unit U1090) http://tagc.univ-mrs.fr /

Upload: marcelle-leclercq

Post on 04-Apr-2015

121 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Matrices de substitution

Introduction à la bioinformatique

Jacques van Helden

[email protected]é d’Aix-Marseille, France

Lab. Technological Advances for Genomics and Clinics (TAGC, INSERM Unit U1090)

http://tagc.univ-mrs.fr/

Page 2: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Matrices de substitutions Une matrice de substitution associe un score à

chaque paire de résidus qu'on peut trouver dans un alignement. Chaque ligne et chaque colonne représente l'un

des résidus (20 acide aminés, 4 nucléotides). La diagonale correspond aux identités. Le triangle inférieur correspond à des

substitutions. Le triangle supérieur est symétrique au triangle

inférieur, il n'est pas nécessaire d'indiquer les nombres.

Les scores négatifs sont considérés comme des pénalités associées à certaines substitutions. Les algorithmes d'alignements tenteront donc d'éviter ces substitutions.

Les scores positifs indiquent qu'une substitution est considérée comme "acceptée" dans un alignement, car on la suppose moins dommageable que d'autres substitutions.

2

Page 3: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Matrices de substitutions nucléotidiques Pour les séquences nucléotidiques, on utilise

généralement une pénalité identique pour toute les substitutions.

Cependant, on pourrait décider d'assigner un coût plus faible à certaines substitutions (par exempleA<—>T) si l'on considère qu'elles ont plus de chance d'être observées dans des alignements (dans certains génomes, les résidus A et T sont deux fois plus fréquents que les C et G).

Exemple: la matrice ci-jointe représente des scores définis de façon arbitraire Identité +2 Substitution A-T -1 Autres substit. -2

3

Page 4: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Utilisation d'une matrice de substitution pour calculer le score d'un alignement

Les matrices de substitution sont utilisées pour calculer le score d'un alignement.

Ce score est la somme, pour toutes les positions de l'alignement (i de 1 à L) , des scores des paires de résidus (r1,I et r2,I).

Les "gaps" sont traités par une règle spécifique reposant sur deux paramètres de pénalité:

Pénalité d'ouverture de gap (go)

• Valeurs typiques: entre -10 et -15 Pénalité d'extension de gap (ge)

• Valeurs typiques: entre -0.5 et -2

4

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 R L A S V E T D M P - - - - - L T L R Q H

T L T S L Q T T L K N L K E M A H L G T HS

Page 5: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Utilisation d'une matrice de substitution pour calculer le score d'un alignement

Les matrices de substitution sont utilisées pour calculer le score d'un alignement.

Ce score est la somme, pour toutes les positions de l'alignement (i de 1 à L) , des scores des paires de résidus (r1,I et r2,I).

Les "gaps" sont traités par une règle spécifique reposant sur deux paramètres de pénalité:

Pénalité d'ouverture de gap (go)

• Valeurs typiques: entre -10 et -15 Pénalité d'extension de gap (ge)

• Valeurs typiques: entre -0.5 et -2

5

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 R L A S V E T D M P - - - - - L T L R Q H . | . | : : | . : . go ge ge ge ge . . | . . | T L T S L Q T T L K N L K E M A H L G T HS -1 +4 +0 +4 +1 +2 +5 -1 +2 -1 -10 -1 -1 -1 -1 -1 -2 +4 -2 -1 +8 = 7

Page 6: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Construction d'une matrice d'alignement à partir d'une matrice de substitutions

Revenons à l'exemple précédent.

Haut: une matrice de scores (arbitraires) de substitution pour séquences d'ADN (un score pour chaque paire de nucléotides).

Bas: matrice d'alignement pour deux petites séquences d'ADN.

Dans chaque cellule de la matrice d'alignement, on insère le score de la paire de résidus correspondants, extrait de la matrice de substitutions.

6

Matrice de substitutions

Matrice d'alignement

Page 7: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Occurrences de substitutions dans 71 groupes de protéines alignées (Dayhoff, 1978)

Voici les nombres d'occurrences utilisés par Margret Dayhoff, en 1978, pour estimer les paramètres de la série "historique" de matrices PAM ("point accepted mutations").

7

Page 8: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Substitution matrices for proteins

Margaret Dayhoff (1978) a mesuré les taux de substitutions entre chaque paire d'acides aminés, dans une collection de 71 alignements de paires de protéines.

A partir des comptages bruts, elle dérive un score de log-odds

fi, fj: fréquences des résidus i et j, resp.

fi,j: fréquence de la substitution i <-> j Les valeurs positives indiquent des substitutions

fréquentes ("acceptées"), càd des substitutions observées plus fréquemment que ce à quoi l'on s'attendrait par hasard.

Les valeurs négatives indiquent les mutations rares, càd celles qu'on observe moins fréquemment que ce à quoi l'on s'attendrait par hasard. Ce taux inférieur est interprété comme un indice du contre-sélection, suggérant que ces mutations sont généralement défavorables pour la fonction de la protéine.

La diagonale reflète le taux de conservation des résidus. Notons que certains résidus rares ont un score de conservation très important: le score de conservation n'est pas proportionnel à la fréquence.

8

Reference: Dayhoff et al. (1978). A model of evolutionary change in proteins. In Atlas of Protein Sequence and Structure, vol. 5, suppl. 3, 345–352. National Biomedical Research Foundation, Silver Spring, MD, 1978.

Page 9: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

PAM scoring matrices

The alignments used by Dayhoff had ~85% identity However, frequencies of substitutions are expected to depend on the rate of

divergence between sequences: the number of substitutions increases with time. In order to take into account the divergence rate, Margaret Dayhoff calculated a

series of scoring matrices, each reflecting a certain level of divergencePAM001 rates of substitutions between amino-acid pairs expected for proteins with an average of

1% substitution per position

PAM050 rates of substitutions between amino-acid pairs expected for proteins with an average of 50% substitution per position

PAM250 250% mutations/position (note: a position could mutate several times)

The substitution matrix must this be chosen according to the relatedness of the sequences to be aligned

9

Reference: Dayhoff et al. (1978). A model of evolutionary change in proteins. In Atlas of Protein Sequence and Structure, vol. 5, suppl. 3, 345–352. National Biomedical Research Foundation, Silver Spring, MD, 1978.

Page 10: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Extrapolation of the PAM series from PAM001

10

Asn

AlaArgAsnAspCys

TyrTrp

Val

...Gln

0.0009

0.0001

0.9822

0.0042

0.0000

...

0.0013

0.0000

0.0003

0.0001

0.0004

Thr

0.0022

0.0002

0.0013

0.0004

0.0001

...

0.9871

0.0000

0.0002

0.0009

0.0003

Thr

Mi,3=P(X|Arg) M17,j=P(Thr|X)

P(Asn -> Thr)= P(Asn -> Ala -> Thr) + P(Asn -> Arg -> Thr) + ... + P(Asn -> Val -> Thr)= (0.0009)(0.0001) + (0.0001)(0.0002) + ... + (0.0001)(0.009)

Page 11: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

PAM250 matrix

11

Page 12: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Hinton diagram of the PAM250 matrix

Yellow boxes indicate positive values (accepted mutations)

Red boxes indicate negative values (avoided mutations).

The area of each box is proportional to the absolute value of the log-odds score.

12

Page 13: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Reference: Henikoff, S. and Henikoff, J.G. (1992). Amino acid substitution matrices from protein blocks. PNAS 89:10915-10919.

BLOSUM scoring matrices

Henikoff and Henikoff (1992) analyzed substitution rates on the basis of aligned regions (blocks)

They calculated scoring matrices from blocks with different percentages of protein divergence

Example: BLOSUM62 calculated from blocks with >=62% identity BLOSUM80 calculated from blocks with >=80% identity

When these substitution matrices are used to score sequence alignments, one should always choose the matrix appropriate to the expected percentage of similarity.

How to choose the appropriate matrix ? First alignment with an average matrix (BLOSUM62). Observation of the %identity in this alignment -> choice of a matrix with corresponding

index. Re-alignment if required.

Examples: Alignment has 65.2% identity -> the first alignment with BLOSUM62 was correct Alignment has 28.4% identity -> redo the alignment with BLOSUM30 Alignment has 81.5% -> redo alignment with BLOSUM80.

13

Page 14: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

BLOSUM30

14

Page 15: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

BLOSUM62

15

Page 16: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

BLOSUM80

16

Page 17: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

BLOSUM62 – Amino acid properties

17

Page 18: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

BLOSUM62 - substitutions between acidic residues

18

Page 19: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

BLOSUM62- substitutions between basic residues

19

Page 20: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

BLOSUM62 - substitutions between aromatic residues

20

Page 21: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

BLOSUM62 - substitutions between polar residues

21

Page 22: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

BLOSUM62 - substitutions between hydrophobic residues

22

Page 23: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Substitution matrices - summary

Different substitution scoring matrices have been established Residue categories (Phylip) PAM (Dayhoff, 1979).

• PAM means “Percent Accepted Mutations” BLOSUM (Henikoff & Henikoff, 1992).

• BLOSUM means “Block sum”. Substitution matrices allow to detect similarities between more distant proteins

than what would be detected with the simple identity of residues. The matrix must be chosen carefully, depending on the expected rate of

conservation between the sequences to be aligned. Beware

With PAM matrices

• the score indicates the percentage of substitution per position-> higher numbers are appropriate for more distant proteins

With BLOSUM matrices

• the score indicates the percentage of conservation-> higher numbers are appropriate for more conserved proteins

23

Page 24: Matrices de substitution Introduction à la bioinformatique Jacques van Helden Jacques.van-Helden@univ-amu.fr Université dAix-Marseille, France Lab. Technological

Bibliography

Substitution matrices PAM series

• Dayhoff, M. O., Schwartz, R. M. & Orcutt, B. (1978). A model of evolutionary change in proteins. Atlas of Protein Sequence and Structure 5, 345--352.

BLOSUM substitution matrices• Henikoff, S. & Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci

U S A 89, 10915-9. Gonnet matrices, built by an iterative procedure

• Gonnet, G. H., Cohen, M. A. & Benner, S. A. (1992). Exhaustive matching of the entire protein sequence database. Science 256, 1443-5. 1.

24