classification naturelle = phylogénie

Post on 17-Jan-2016

84 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Classification naturelle = phylogénie. Quelques définitions. Arbre = réseau connexe non cyclique. noeud. branche. Réseau connexe non cyclique. Réseau connexe cyclique. Réseau non connexe non cyclique. Plusieurs graphismes pour les phylogénies. A. B. C. A. B. C. D. D. B. A. A. D. - PowerPoint PPT Presentation

TRANSCRIPT

Classification naturelle = phylogénie

Quelques définitions

Arbre = réseau connexe non cyclique

Réseau non connexe non

cyclique

Réseau connexe cyclique

Réseau connexe non cyclique

branche

noeud

Plusieurs graphismes pour les phylogénies

ABC

DA B C D

BAD

C

A

B

C

D

A

B

C

D

A

B

C

D

ARBRE NON RACINÉ et ARBRE RACINÉ

Oiseaux

Monotrèmes Marsupiaux

Placentaires

Oiseaux

Monotrèmes

Marsupiaux

Placentaires

Oiseaux

Monotrèmes

Marsupiaux

Placentaires

Oiseaux

Monotrèmes

Marsupiaux

Placentaires

Oiseaux

Monotrèmes

Marsupiaux

Placentaires

1 2

3 4

Oiseaux

Monotrèmes

Marsupiaux

Placentaires5

1 4

2 35

Racine et groupe extérieur

Oiseaux

Monotrèmes Marsupiaux

Placentaires

Oiseaux

Monotrèmes

Marsupiaux

Placentaires1

1

Un groupe extérieur (outgroup) est presque toujours utilisé pour raciner les phylogénies

moléculaires

AAAAAAAAAAA

CAAAAAAAAAA

1

CAGGAAAAAAA

2

CUAAAAAAAAA

1

AAAAAAAAAAC

1

AAAAGGCUAAC

4

AAAAAAAAUGC

2

Espèce 1 Espèce 2 Espèce 3 Espèce 4

Cas idéal

Espèce 1 CUAAAAAAAAAEspèce 2 CAGGAAAAAAAEspèce 3 AAAAAAAAUGCEspèce 4 AAAAGGCUAAC

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

Combien existe-t-il d’arbres ?

Avec n espèces, il y a (2n – 5)(2n – 7)…(5)(3)(1) arbres non racinés

3 espèces : 1 arbre

A

CB

D

D D

4 espèces : 3 * 1 arbresA

B

C

D

A

C

B

D

A

D

B

CE

E

AB

C

DE

5 espèces : 5 * 3 * 1 arbres7 (2*6-5) branches

6 espèces : 7 * 5 * 3 * 1 arbres

#espèces #arbres 4 3 5 15 6 105 7 945

10 2 106

20 8 1021

50 2.8 1074

135 2 10267

n (2n – 5) (2n – 7) … (3) (1)

Le nombre d’arbres possibles

Augmentation exponentielle du nombre d’arbres possibles :

problème NP-complet (Non-Polynomial)

AAAAAAAAAAA

CAAAAAAAAAA

1

CAGGAAAAAAA

2

CUAAAAAAAAA

1

AAAAAAAAAAC

1

AAAAGGCUAAC

4

AAAAAAAAUGC

2

Espèce 1 Espèce 2 Espèce 3 Espèce 4

Arbre #1

Arbre #2

Arbre #3

1

2

3

4 4

1 2

34

1 2

3

Cas idéal

Espèce 1 CUAAAAAAAAAEspèce 2 CAGGAAAAAAAEspèce 3 AAAAAAAAUGCEspèce 4 AAAAGGCUAAC

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

Arbre #1

Arbre #2

Arbre #3

Site 2

1 A

2 U A 4

A 3A A

1 A U 2

3 A A 4

A A

1 A U 2

A 34 A

A A

1 changemen

t

1 changement

1 changement

Site 1

A 3

A 42 C

1 CAC

A 43 A

C 21 CA A

4 A A 3

C 21 CA A

1 changement

2 changements

2 changements

Site informatif : un site avec au moins deux nucléotides différents (états de caractère) présents au moins deux fois

L’information phylogénétique

Arbre #1 :

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

Choisir l’arbre nécessitant le plus petit nombre de substitutions (changements)

Principe du “rasoir d’Occam” : la meilleure explication des données est la plus simple, celle qui nécessite le plus petit

nombre d’hypothèses ad hoc

Le nombre total de changements évolutifs sur une phylogénie (longueur de l’arbre) is simplement la somme du nombre de changements à chaque site

L=1+1+1+1+1+1+1+1+1+1+1=11

Parcimonie maximale

Cas idéalAAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAAAAAAUGC AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Arbre #1

Arbre #2

Arbre #3

1

2

3

4 4

1 2

34

1 2

3

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

L=11 L=13 L=13

Sites informatifs

Un peu de vocabulaireAAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAAAAAAUGC AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA------UGCEspèce 4 AA--GGCU--C

Synapomorphie : Caractéristique nouvelle et distinctive partagée par un groupe d'organismes (C à la position 1)

Symplésiomorphie : similitude due au partage d’un état ancestral de caractère (A à la position 1)

Autapomorphie : état dérivé non partagé (U à la position 2)

Une substitution multiple

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAAAAAAAGU AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-------GUEspèce 4 AA--GGCU--C

Arbre #1

Arbre #2

Arbre #3

Site 2

1 A

2 A C 4

U 3A A

1 A A 2

3 U C 4

A A

1 A A 2

U 34 C

A A

2 changement

s

2 changement

s

2 changement

s

Trop d’information tue l’information

Les symplésiomorphies ne sont pas informatives (groupe paraphylétique)

Arbre #1

Arbre #2

Arbre #3

1

2

3

4 4

1 2

34

1 2

3L=11 L=12 L=12

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAAAAAAAGU AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-------GUEspèce 4 AA--GGCU--C

Une substitution multiple

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAGAAAAAGC AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-G-----GCEspèce 4 AA--GGCU--C

Arbre #1

Arbre #2

Arbre #31

2

3

4 4

1 2

34

1 2

3

L=11 L=13 L=12

1+1+1+2+1+1+1+1+0+1+1 2+1+1+1+1+1+1+1+0+1+2

Une substitution multiple : une convergence

Espèce 1 CUAAAAAAAAAEspèce 2 -AGG-------Espèce 3 AA-G-------Espèce 4 AA--GGCU--C

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA CAGGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAGAAAAAAA AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Arbre 1 Arbre 2 Arbre 31

2

3

4 4

1 2

34

1 2

3

L=10 L=11 L=10

Deux substitutions multiples : convergence et réversion

Trois substitutions multiples

Espèce 1 CUAAAAAAAAAEspèce 2 GA-G-------Espèce 3 AA-G-------Espèce 4 AA--GGCU--C

AAAAAAAAAAA

CAAAAAAAAAA

CUAAAAAAAAA GAAGAAAAAAA

1

21

Espèce 1 Espèce 2

AAAAAAAAAAC

AAAGAAAAAAA AAAAGGCUAAC

1

42

Espèce 3 Espèce 4

Arbre 1 Arbre 2 Arbre 31

2

3

4 4

1 2

34

1 2

3

L=10 L=10 L=9

Homoplasie

homoplasie : toute caractéristique présente chez deux espèces (ou plus) qui n'est pas présente chez leur ancêtre commun immédiat.

Arbre 1 Arbre 2 Arbre 31

2

3

4 4

1 2

34

1 2

3

L=10 L=10 L=9

Les substitutions multiples impliquent une sous-estimation de la longueur de l’arbre

Vrai nombre de substitutions : 11

Mesure de l’homoplasie

Pour un site, IC = m/sm : nombre minimum de changements (= nombre d’états de caractères – 1)s : nombre de changements observés dans l’arbre le plus parcimonieux

Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969)

1 A2 C3 C4 C5 A6 T7 T8 T9 C

C

CA

CA

CT

TC

s = 49 C2 C3 C4 C6 T7 T8 T1 A 5 A

C

TA

CT

m = 2

IC = 0.5

Mesure de l’homoplasie

Pour un arbre, IC = M/SM : nombre minimum de changements pour tous les sitesS : nombre total de changements dans l’arbre le plus parcimonieux

Indice de Cohérence IC (Consistency Index, Kluge & Farris, 1969)

Pour un site non informatif, m = s donc IC = 1

ICi = Mi/Si

Mi : nombre minimum de changements pour tous les sites informatifsSi : nombre total de changements dans l’arbre le plus parcimonieux pour les sites informatifs

Indice de Cohérence excluant les sites non informatifs ICi

Algorithme récursif de Fitch

1) Passage de bas en haut :x et y les fils du noeud n et X, Y, N les ensembles de nucléotides correpondant à ces noeuds

sinon

Ø si

YX

YXYXN

C G A A C

C G A A C

{C,G}

C G A A C

{A,C}

{C,G}

C G A A C

{A,C}

{A}{C,G

}

C G A A C

{A,C}

{A}{C,G

}

{A,C,G}

Une substitution pour chaque

union

Algorithme récursif de Fitch

2) Passage de haut en bas :a) Choix arbitraire d’un nucléotide à la racineb) On assigne au fils x du noeud n :

• a X si a N• n’importe quel nucléotide de X sinon

C G A A C

A

AC

C

C G A A C

A

AC

A

C G A A C

A

AG

G

Agglomération progressive des espèces

Heuristiques de recherche de topologies

1. Insertion sur toutes les branches2. Calcul du nombre de changements3. Choix de l’arbre le plus

parcimonieuxNombre d’opérations : 3+5+7=15

(pour 105 arbres possibles)

Pour 10 espèces : 63 versus 2 millions

Ordre d’agglomération des espèces

A

BC

D

E

A

B C

D

E

A

B C

D

AB

CF

D

FE

C

B

D

F E

C

B

D

F E

C

DF

EA

1. Ajouter les espèces de manière aléatoire2. Répéter l’opération un grand nombre de

fois3. Choisir l’arbre le plus parcimonieux

Algorithme de réarrangements

Réarrangement local ou Nearest Neighbor Interchange (NNI)

YX

WZ

Subtree Pruning and Regrafting (SPR)

2

13 4

5

6

2

13 4

5

6

2

13 4

5

6

2

13 4

5

6 4(n-3)(n-2) possibilités

WX

YZ

ZX

WY

2(n-3) possibilités

Algorithme de réarrangements

Tree Bisection and Reconnection (TBR)

2

13 4

5

6

(2n1-3)(2n2-2) possibilités/coupure

2

13 4

5

6

1) Une branche est coupée

2

13 4

5

6

2

13 4

5

6

2

13 4

5

6

2) Toutes les reconnexions

possibles sont testées

Etc.

Algorithme exact du branch and bound

Hendy et Penny (1982) Mathematical Biosciences, 60:133-142, 1982

Utilisation de contraintes a priori

G7

G10G6G8

G4G2

G9

G3

G11

G1

G5

11 espèces : 24 106

45 espèces : 5 1064

Maximum de parcimonie

Deux étapes de minimisation :

1) Pour un arbre donné, minimisation du nombre de changements nécessaires pour expliquer l’alignement

2) Choix parmi tous les arbres possibles de celui ayant le plus petit nombre de changements

Robustesse des phylogénies : le test du bootstrap

1) Tirage avec remise de n positions parmi n positions

2) Construire l’arbre phylogénétique

3) Répéter 1) et 2) un grand nombre de fois (1000)

4) Analyser tous les arbres obtenus (en particulier via un arbre consensus)

L’arbre de consensus majoritaire

1) On calcule la fréquence d’apparition des différents groupements d’espèces

E et F : 100%D, E et F : 93%A et B : 52%A et C : 48%C, E et F : 7%

2) Construire l’arbre consensus

B

AC D

E

F C

AD B

E

F B

AD C

E

FEtc.

B

A

C D

E

F52%

93%

100%

Problèmes

• Très couteux en temps calcul

• Seuil de significativité (70%, 95%)

Robustesse des phylogénies : le test du bootstrap

Le tirage avec remise de positions, en respectant l’effectif original, revient à conférer un poids aléatoire aux positions

Par exemple : 2 1 0 3 0 2 1 1 1 3 0 4 0 0 1 2 2 1 1 3 0 1 0 1 3 2 0 0

(à chaque tirage, un tiers des positions ne sont pas considérés)

Le but du bootstrap est de “rejouer” l’évolution des sites. Il estime la robustesse d’un noeud pour un jeu de données et d’après une méthode de reconstruction

Attraction des longues branches

A

DB

C

p

q q p<q2

A

DB

C

Si A est un groupe extérieur éloigné

A

D

BC

A

DBC

Felsenstein, 1978

Inconsistence de l’inférence phylogénétique

Une méthode de reconstruction phylogénétique est dite inconsistente si elle converge vers un résultat faux

quand il y a de plus en plus de données

ATTENTION : un très bon support statistique (par ex. 100% de bootstrap) ne garantit pas que le noeud inféré

est correct

• (1-10-2) * (1-10-2) * (1-10-6) * (1-10-6) * (1-10-6) ≈ 0.98

• 10-2 * (1-10-2) * (1-10-6) * (1-10-6) * (1-10-6) ≈ 10-2

• etc.

A 1 0 1 0 1 0 B 1 0 0 1 0 1 C 0 1 1 0 0 1 D 0 1 0 1 1 0

10-2*10-6 10-6 10-2*10-2 10-6*10-6 10-2*10-6 10-6*10-2

A 0 1 0 0 0 B 0 0 1 0 0 C 0 0 0 1 0 D 0 0 0 0 1

0.98 10-2 10-6 10-2 10-6

~10-6 ~10-4 ~2*10-8

A

DB

C

10-

2

10-

2

10-

6

0

Attraction des longues branches

Echantillonnage taxonomique

C

AA

C

A

C

AA

C

A

A

AA

C

Ajouter des espèces à l’analyse permet de mieux détecter les substitutions

multiples

Ajouter des espèces peut “casser les longues branches” et ainsi éviter l’artefact d’attraction des

longues branches

(Hendy et Penny, 1989)

top related