initiation à la reconstruction phylogénétique - edu.upmc.fr€¦ · initiation à la...

Initiation à la reconstruction phylogénétique

Yves DesdevisesUniversité Pierre et Marie Curie

Observatoire Océanologique de Banyuls04 68 88 73 13

[email protected]://desdevises.free.fr

Références• Darlu P. et Tassy P. 1993. Reconstruction phylogénétique :

concepts et méthodes. Masson.

• Perrière G. et Brochier C. 2010. Concepts et méthodes en phylogénie moléculaire. Springer.

• Felsenstein J. 2004. Inferring phylogenies. Sinauer.

• Hall B. 2007. Phylogenetic trees made easy. Third Edition. Sinauer.

• Lemey P, Salemi M. et Vandamme A.-M. 2009. The phylogenetic handbook. Second Edition. Cambridge University Press.

• Page R. et Holmes E. 1998. Molecular evolution: a phylogenetic approach. Blackwell.

• But : proposer une hypothèse des liens de parenté entre plusieurs taxons

• Phylogénie = arbre évolutif (≠ échelle)

• Spéciation : binaire

• Basé sur l’homologie : similarité résultant de l’héritage d’un ancêtre commun

• Indication de l’existence d’un ancêtre commun

• Identifiable à l’aide d’un arbre phylogénétique, peut également servir à le construire

• Multiples utilisations des phylogénies

• Découvrir l’origine des organismes

• Classification et biodiversité

• Inférence des états de caractères ancestraux

• Etude de l’évolution corrélée et de l’adaptation

• Evolution moléculaire

• Taux de diversification et “key innovations”

• Dates de divergence

• Biogéographie et phylogéographie

• Cospéciation

1

2

3

4

Arbres phylogénétiques

Symphodus roissali

Symphodus cinereus

Symphodus tinca

Symphodus ocellatus

Symphodus mediterraneus

Symphodus melanocercus

Ctenolabrus rupestris

Labrus merulaLabrus viridis

Cheilinus trilobatusCheilinus chlorourus

Epibulus incidiator

Stetojulis albovittataStetojulis bandanensis

Halichoeres hortulanus

Halichoeres margaritaceus

Labropsis australis

Halichoeres marginatus

Anampses geographicusAnampses caeruleopunctatus

Labroides dimidiatus

Labrichthys unilineatusCoris julis

Hemigymnus melapterusHemigymnus fasciatus

Thalassoma bifasciatum

Thalassoma lunare

Thalassoma lutescens

Pictilabrus laticlaviusNotolabrus tetricus

Bodianus rufusClepticus parrae

Pagrus major

Symphodus roissali

Symphodus cinereus

Symphodus tinca

Symphodus ocellatus




Labrus merula

Labrus viridis

Cheilinus trilobatus

Cheilinus chlorourus

Epibulus incidiator

Stetojulis albovittata

Stetojulis bandanensis



Labropsis australis


Anampses geographicus

Anampses caeruleopunctatus


Labrichthys unilineatus

Coris julis

Hemigymnus melapterus

Hemigymnus fasciatus


Thalassoma lunare


Pictilabrus laticlavius

Notolabrus tetricus

Bodianus rufus

Clepticus parrae

Pagrus majorSymphodus roissali

Symphodus cinereus

Symphodus tinca

Symphodus ocellatus




Labrus merula

Labrus viridis



Epibulus incidiator

Stetojulis albovittata




Labropsis australis






Coris julis

Hemigymnus melapterus



Thalassoma lunare


Pictilabrus laticlavius

Notolabrus tetricus

Bodianus rufus

Clepticus parrae

Pagrus major

Stetojulis albovittataStetojulis bandanensis



Epibulus incidiatorLabrus viridisLabrus merula


Symphodus roissali

Symphodus cinereus

Symphodus tinca

Symph

odus

ocell

atus


Symphodus melanocercu

s

Pagrus

majo

r

Bodianus rufus

Clepticus parrae

Notolabrus tetricus

Pictilabrus laticlaviusThalassoma lunare


Thalassoma lutescensHemigymnus melapterus


Coris julis


Labr

oides

dim

idiatu

s

Anam

pses

caer

uleop

uncta

tus


Labr

opsis

aus

tralis

Halicho

eres m

argina

tus

Halicho

eres h

ortula

nus


Symphodus roissaliSymphodus cinereusSymphodus tinca

Symphodus ocellatus




Labrus merula

Labrus viridis

Chei

linus

trilo

batu

s

Cheil

inus c

hloro

urus

Epibu

lus in

cidiat

or

Stetoju

lis alb

ovitta

ta


Halichoeres hortulanusHalichoeres margaritaceus

Labropsis australis





Labrichthys unilineatusCoris julis

Hemigym

nus melapterus

Hemigym

nus fasciatus Thala

ssom

a bif

ascia

tum

Thala

ssom

a lun

are

Thala

ssom

a lute

scen

s

Pictila

brus l

aticla

vius

Notolab

rus te

tricus

Bodianus rufus

Clepticus parrae

Pagrus major

• Cladogrammes

• Pas de longueurs de branches

• Clades

• Phylogrammes

• Longueurs de branches

Arbre additif Arbre ultramétrique

Feuilles = taxons terminaux

Racine

Branches terminales

Noeud

Branches intérieures

Polytomie

A B C D E F G H I J

• Spéciation

5

6

7

8

Hypothèse

A CB

• Pour orienter l’arbre

• Utilisation d’un extra-groupe (hors-groupe = groupe extérieur = outgroup)

• Reste = groupe intérieur (ingroup)

ajout d’un extra-groupe

Arbre non enracinéextra-groupe

Arbre enraciné

Enracinement

• Extra-groupe : taxon frère hors de l’ingroup

• Caractères partagés entre outgroup et ingroup = caractères ancestraux

• Parfois pas d’extra-groupe : enracinement au point équidistant des extrémités de l’arbre (suppose longueurs de branches) = midpoint rooting

A

BC

D

E

F

AB C D EF

• Groupe

• Monophylétique : clade

• Mammifères

• Paraphylétique

• Reptiles

• Polyphylétique

• Algues, protozoaires

9

10

11

12

Caractères• Organismes composés de différentes

caractéristiques

• Ces caractéristiques prennent des formes différentes selon les taxons : états de caractères

• L’ensemble des états d’un caractère constituent un caractère

• Ces états sont produits par des changements héritables

• L’inférence phylogénétique se fait à partir des différences entre états de caractères

• On cherche à établir le lien entre ancêtre et descendant par la présence/absence d’un état de caractère

• On cherche l’apparition de nouveaux états de caractères dans les descendants

• Les différents états de caractères sont par définition des homologies

• Les taxons qui partagent ce nouvel état de caractère (dérivé) forment des clades

• Exemple : les poils chez les mammifères, noyau chez les Eucaryotes, ...

Homologies

• Les homologies sont supposées montrer des similarités en :

• position

• structure

• développement

• Un critère reconnu pour supporter les homologies est la congruence avec d’autres caractères

Lézard

Grenouille Humain

Chien

Changement

POILS

AbsentsPrésents

13

14

15

16

Homoplasies

• Ce sont les similarités non homologues

• Résultat d’une évolution indépendante

• Convergence

• Parallélisme

• Réversion

• Brouillent le signal phylogénétique : peuvent conduire à l’établissement de fausses relations de parenté

Convergence

Réversion

Parallélisme

17

18

19

20

Lézard

Grenouille

Humain

Chien

QUEUE

AbsentePrésente

Humain

Grenouille Lézard

ChienQUEUE

AbsentePrésente

• Sans homoplasies, l’inférence phylogénétique serait facile

• Problème fondamental de la reconstruction phylogénétique : distinguer les homoplasies (= bruit) du signal

• Corollaire : la qualité des données (un “bon” signal phylogénétique) est plus importante que la méthode utilisée

• Si il y a un seul arbre correct, quand des caractères supportent des arbres différents, l’un au moins est forcément homoplasique

Humain

Grenouille Lézard

ChienQUEUE

AbsentePrésente

Lézard

Grenouille Humain

ChienPOILS

AbsentsPrésents

Congruence• L’arbre choisi est celui qui maximise le nombre de

caractères congruents

Lézard

Grenouille Humain

Chien

Changements

POILSLACTATION...

MAMMIFERES

21

22

23

24

Cas des données moléculaires

• L’homoplasie est généralement plus commune avec des données moléculaires que morphologiques

• Peu d’états (4 pour l’ADN : A G C T)

• Chimiquement proches

• Taux d’évolution parfois élevé

• Pas d’identification de l’homoplasie par structure ou développement

Données

• Fossiles : rares

• Caractères morphologiques

• Caractères moléculaires : ADN, protéines, ...

• De loin les plus utilisés : modèles, nombreux caractères, moins subjectifs, ...

• Phylogénie du fragment d’ADN (≠ espèce)

• Futur : génomes ➙ phylogénomique

Données moléculaires

• Nucléotides ou acides aminés (pour divergences plus anciennes)

• Caractères = positions des bases (ou AA)

• Etats de caractères = nature des bases ou AA

• Etape primordiale : alignement

• Parfois manuel

• Méthodes automatiques : retouchage manuel

• Peut utiliser information sur la structure secondaire

• Nucléotides : 4 états seulement (2 types)

• Modélisable

• Homoplasie “facile”

25

26

27

28

• Acides aminés

• 20 états

• 5 catégories

• Modélisation beaucoup plus difficile

• Codons

• 61 états !

• Arbre des gènes ≠ arbre des espèces

• Gènes orthologues ou paralogues

A*C*b*

Arbre

Orthologues Orthologues

Paralogues

a A*b* c BC*

Duplication

Gène ancestral

Alignement<---------------(--------------------HELIX 19---------------------)<---------------(22222222-000000-111111-00000-111111-0000-22222222Thermus ruber UCCGAUGC-UAAAGA-CCGAAG=CUCAA=CUUCGG=GGGU=GCGUUGGATh. thermophilus UCCCAUGU-GAAAGA-CCACGG=CUCAA=CCGUGG=GGGA=GCGUGGGAE.coli UCAGAUGU-GAAAUC-CCCGGG=CUCAA=CCUGGG=AACU=GCAUCUGAAncyst.nidulans UCUGUUGU-CAAAGC-GUGGGG=CUCAA=CCUCAU=ACAG=GCAAUGGAB.subtilis UCUGAUGU-GAAAGC-CCCCGG=CUCAA=CCGGGG=AGGG=UCAUUGGAChl.aurantiacus UCGGCGCU-GAAAGC-GCCCCG=CUUAA=CGGGGC=GAGG=CGCGCCGAmatch ** *** * ** ** * **

• Hypothèse d’homologies positionnelles entre nucléotides ou AA

• Méthodes

• Manuelle (Seaview, BioEdit, Se-Al, ...)

• Automatique (ClustalX, MAFFT, POY, MUSCLE, T-Coffee, PRANK...)

• Combinaison des deux (ce qu’on fait en général)

• Alignement plus ou moins facile

• Séquence codante ou pas

• Utiliser les AA (codons) pour alignement

• Considérer les types d’AA (taille, polarité, hydrophobicité)

• On peut parfois utiliser la structure secondaire

• Séquences plus ou moins divergentes

• Homologie variable selon région

• Alignement atteint par ajout d’événements d’insertion-délétion (indels) à l’aide de gaps : limités par pénalités (sauf aux extrémités)

29

30

31

32

• But de l’alignement automatique : maximiser le score de l’alignement

• Exemple

GATTCGAATTC

On définit :Match = +1Mismatch = 0Indel = -1

Dot Plot

GATTC-GAATTCScore = 2

GA-TTCGAATTCScore = 4

1

1

-1

1

1

1

1

-1

1

1

1

1

G-ATTCGAATTCScore = 4

2 alignements optimaux

1

1

0

1

0

-1

• En plus de la pénalité d’introduction des gaps (gap opening penalty), on définit une pénalité pour l’extension des gaps (gap extension penalty), moins élevée (encourage extension, pas des trous partout)

• GOP et GEP peuvent varier le long des séquences, en fonction de la présence de gaps et de caractéristiques biochimiques (e.g. AA hydrophiles)

• On peut aussi pondérer différemment les substitutions (certaines sont plus faciles que d’autres ; e.g. pour AA : matrice BLOSUM 62)

• Problème complexe analytiquement : on ne peut garantir le “meilleur” alignement quand le nombre de séquences augmente (alignement multiple)

• Alignement progressif (e.g. Clustal)

• Calcul d’un arbre-guide basé sur un alignement par paires

• Aligne d’abord les séquences les plus proches et ainsi de suite

• Rapide mais pas de critère d’optimalité

33

34

35

36

• Alignement global ou local

• Global : considère toute la longueur des séquences. Bien si divergence faible et taille similaire

• Local : par région. Mieux si régions variables

• Hybride (semiglobal ou glocal)

• Après alignement, possibilité de sélection automatique des régions informatives, en éliminant les régions mal alignées

• GBlocks

• Choix de différents critères modifiant la stringence de la sélection

• Multiple hits

• Substitutions multiples au même site

• Affecte les sites qui évoluent rapidement

Seq 1 AGCGAGSeq 2 GCGGAC

C AC G T A

1 2 3

1

Seq 1

Seq 2

Saturation

• 3 changements visibles

• 12 changements réels

37

38

39

40

• Correction

• Utiliser un modèle d'évolution pour corriger la divergence entre séquences

• Eliminer les sites à évolution rapide (e.g. troisième position des codons)

• Pondérer différemment Ti et Tv

• Utiliser seulement Tv

• Utiliser des séquences à évolution plus lente

• Attraction des longues branches

• Si la méthode suppose que tous les sites changent au même taux

A B

C D

ppq

qq

A

B

C

D

Vrai arbre Arbre inféré

Biais

• Attention à prendre en compte les différences de composition des bases dans les lignées

• Exemple : % GC pour les thermophiles

Aquifex Thermus

Bacillus Deinococcus

Aquifex (73%)

Thermus (72%)

Bacillus (50%)

Deinococcus(52% G+C)

Vrai arbre Arbre inféré

Critère d’optimalité

• Pour choisir le “meilleur arbre”

• Hypothèse sur le fonctionnement de l’évolution

• Différent selon les méthodes

• Nombre de pas : parcimonie

• Somme des longueurs de branches : distances

• Vraisemblance : maximum de vraisemblance, inférence bayesienne

41

42

43

44

Topologies : nombre• Nombre d’arbres non enracinés (pour n taxons)

= (2n-5)(2n-7)...(3)(1)

• Nombre d’arbres enracinés

= (2n-3)(2n-5)...(3)(1)

• Exemples

• 5 taxons : 105 arbres enracinés

• 8 taxons : 135 135

• 10 taxons : 34 459 425

• 50 taxons : 3 1074 (> atomes dans l’univers !!)

∏ (2i-5)i= 3

i= n

∏ (2i-3)i= 2

i= t

Algorithmes1. Calculer les topologies

2. Optimiser tous les caractères et calculer les longueurs

• Long si beaucoup de taxons

• Algorithmes

• Recherche exhaustive si peu de taxons (environ 10) : examine toutes les topologies

• Branch and Bound : explore une partie de l’espace des arbres, pour environ 20 taxons, efficace

• Algorithme heuristique, moins efficace, plus rapide : trouver des “bons” arbres et les réarranger

Treespace

“Treespace”

Suboptimal island oftrees

Global optimum

Starting trees

Parcimonie

45

46

47

48

Cladistique

• Deux lignées sont plus proches entre elles que d’une autre si elles partagent un ancêtre commun plus récent

• Hypothèses phylogénétiques = hypothèse d’un ancêtre commun

• Associée à reconstruction par parcimonie

• MP = Maximum de Parcimonie

Principe de parcimonie

• Favoriser la solution la plus simple

• Permet de choisir entre plusieurs hypothèses phylogénétiques

• Maximiser les congruences et minimiser les homoplasies

• Mesure de l’ajustement des caractères aux arbres

• Méthode basée sur les caractères individuels

Ajustement (fit) des caractères

• Nombre minimum de pas (passage d’un état à l’autre) requis pour expliquer la distribution observée des états de caractères

• Cela est déterminé par l’optimisation de caractères par parcimonie (mapping)

• Cette optimisation est différente sur différents arbres

• Position des changements parfois non unique pour un même arbre et un même nombre de pas : longueurs de branches pas toujours définies

Exemple

Gre

noui

lle

Cro

codi

le

Ois

eau

Kan

gour

ou

Cha

uve-

sour

is

Hum

ain

1 pas PoilsAbsentsPrésents

2 pas

Gre

noui

lle

Cro

codi

le

Ois

eau

Kan

gour

ou

Cha

uve-

sour

is

Hum

ain

49

50

51

52

Analyse par parcimonie• Pour un ensemble de caractères, détermination de

l’ajustement (nombre de pas) de chaque caractère à l’arbre

• La somme pour tous les caractères (X pondération éventuelle) est appelée la longueur de l’arbre

• Les arbres les plus parcimonieux (MPT = most parsimonious trees) sont ceux qui ont la longueur la plus petite

• Caractère informatif : au moins 2 états dans 2 taxons

• Critère d’optimalité (= fonction objective) : nombre de pas = longueur de l’arbre

• On peut obtenir un ou plusieurs MPT

• Plusieurs arbres : consensus

• Les arbres donnent en même temps des séquences (hypothèses) évolutives des caractères

• Longueurs de branches : nombre de changements. Généralement sous-estimées. Pas un but de ce type de méthode (longueurs souvent non considérées)

• Plusieurs mesures pour les arbres et les caractères estiment l’ajustement entre arbre et données : degré d’homoplasie (CI, RI, ...)

Types de caractères

• Différences des coûts pour les changements d’états

• Wagner (ordonné, additif) : morphologie

0 → 1 → 2

• Fitch (non ordonné, non additif, coûts égaux) : ADN, protéines, morphologie

A ⎯ G

T ⎯ C

53

54

55

56

• Sankoff (généralisée)

A ⎯ G 1 pas

T ⎯ C 5 pas

• Exemple typique : poids différent des transitions et des transversions

• Coûts symétriques ou asymétriques

Stepmatrices

Purines (Pu)

Pyrimidines (Py)

A G

T C

dedededede

à

A C G T

à

A 0 5 1 5

à C 5 0 5 1à

G 1 5 0 5

à

T 5 1 5 0Tra

nsve

rsio

ns (

Tv)

Py

P

u

Transitions (Ti)Py PyPu Pu Transitions plus faciles

Transversions plus nombreuses

Parcimonie - Avantages

• Simple

• Pas de modèle explicite d’évolution

• Arbre et évolution des caractères

• Bien si homoplasie rare

• Bien pour caractères morphologiques

Parcimonie - Inconvénients

• Problème si beaucoup d’homoplasies, ou concentrées dans certaines régions

• Attraction des longues branches (Felsenstein Zone)

• Sous-estime la longueur des branches

• Modèle d’évolution implicite : comportement pas toujours clair

• Justifié sur bases plus philosophiques que numériques

57

58

59

60

Maximum de vraisemblance

• Maximum Likelihood = ML

• Méthode basée sur les caractères individuels

• Utilise un modèle d’évolution explicite

• MP est parfois considéré comme un cas particulier du ML

• Méthode la plus complexe au niveau des calculs

• Très grande importance du modèle : uniquement pour données moléculaires

Principe• Répond à la question :

Quelle est la probabilité d’observer les données considérant un modèle particulier d’évolution des séquences (processus et arbre) ?

• Pr(D|T)

• Estimation de la valeur des paramètres du modèle pour maximiser cette probabilité : vraisemblance

• Dans la pratique, on cherche bien sûr l’arbre (topologie et longueurs)

• Calcul de la vraisemblance pour toutes les topologies : algorithme heuristique obligatoire

π = [A, C, G, T]

Sachant

A : AACGB : ACCGC : AACAD : AATG

A

B

C

DProbabilité de

€

a b c db a e fc e a gd c f a

⎧

⎨

⎪ ⎪

⎩

⎪ ⎪

⎫

⎬

⎪ ⎪

⎭

⎪ ⎪

A C G T

ACGT

P =

Nucléotides

61

62

63

64

Paramètres• Fréquences des bases : π

• Somme = 1

• Taux de substitution : matrice P

• Somme des lignes = 1

• Fonction des bases et du temps (branches)

• Hétérogénéité : Γ

• Arbre

• Topologie

• Longueurs de branches

π = [A, C, G, T]

€

a b c db a e fc e a gd c f a

⎧

⎨

⎪ ⎪

⎩

⎪ ⎪

⎫

⎬

⎪ ⎪

⎭

⎪ ⎪

A C G T

ACGT

P =

A

B

C

D

Hétérogénéité du taux de substitution

Paramètre : α

- élevé : taux = 1 partout- faible (0,5) : la plupart des sites changent peu- 0 : taux tous différents

En pratique, une distribution discrète avec 4 classes donne de bons résultats

• La probabilité d’observer une séquence donnée est le produit des fréquences (composition) par les taux de substitution (tenant compte de la longueur des branches)

Exemple

CCAT CCGT

Vraisemblance = πCPC→CπCPC→CπAPA→GπTPT→T

= 0.4X0.983X0.4X0.983X0.1X0.007X0.3X0.979= 0.00003

€

P =

0.976 0.01 0.007 0.0070.002 0.983 0.005 0.010.003 0.01 0.979 0.0070.002 0.013 0.005 0.979

⎧

⎨

⎪ ⎪

⎩

⎪ ⎪

⎫

⎬

⎪ ⎪

⎭

⎪ ⎪

π = [0.1, 0.4, 0.2, 0.3]

(pour une longueurde branche donnée b)

b

• La vraisemblance L change en fonction des longueurs de branches

00.000020.000040.000060.000080.0001

0.000120.000140.000160.000180.0002

0 0.1 0.2 0.3 0.4 0.5 0.6

L

Longueur de la branche b

ML pour une longueur de 0.330614

65

66

67

68

• Nombre généralement très petit : on prend le log de la vraisemblance (L)

• Nombre négatif (0<L<1)

• Il faut faire la même chose pour tout l’arbre

• Pour toutes les topologies et longueurs possibles

• Pour toutes les séquences de longueur donnée, dont les séquences aux noeuds internes

• Tout en estimant les meilleurs paramètres

• C’est très long...

• Sans compter que les changements ne se produisent généralement pas de la même façon à différents endroits de la séquence

• Contraintes de structure

• Position dans le codon

• Site actif

• etc...

• Et ce taux de changement varie en fonction du temps pour une position donnée : hétérotachie

Modèles de baseJukes-Cantor (JC)πA= πC = πG = πT

α = β

α : transitionsβ : transversions

Kimura 2 paramètres (K2P)πA= πC = πG = πT

α ≠ β

Kimura 3 paramètres (K3P)πA= πC = πG = πT

α ≠ β1 ≠ β2

Symétrique (SYM)πA= πC = πG = πT

6 taux différents

Hasegawa-Kishino-Yano 85 (HKY 85)πA≠ πC ≠ πG ≠ πT

α ≠ β

Tamura-Nei (TrN)πA≠ πC ≠ πG ≠ πT

α ≠ β1 ≠ β2General Time Reversible (GTR)

πA≠ πC ≠ πG ≠ πT

6 taux différents

Felsenstein 81 (F81)πA≠ πC ≠ πG ≠ πT

α = β

Séquences codantes

• Différentes contraintes sur différentes positions sur le codon

• Partitionner la séquence par rapport à la position sur le codon et attribuer à chaque partition un modèle et ses paramètres. Différentes possibilités

• Utiliser un codon model

• Utilisation de l’information sur le code génétique

69

70

71

72

Protéines (acides aminés)

• Modèle : probabilité de changement d’un AA en un autre (PhyML, PhyloWin, Puzzle, Phylip)

• 20 AA : beaucoup plus de possibilités que les nucléotides, estimation difficile

• Beaucoup de modèles empiriques (Dayhoff, JTT, WAG, Blosum, ...), issus de grands jeux de séquences, comparées par paires ou basés sur des arbres (par MP ou ML)

Choix du modèle• Plus un modèle comporte de paramètres

• Plus il s’ajuste aux données

• Plus le problème est long à calculer

• Plus l’estimation est incertaine (= augmentation de la variance = baisse du nombre de degrés de liberté)

• Besoin d’un compromis

• A un moment, passer au modèle plus complexe ne produit pas une amélioration significative

• Une solution : hLRT ou AIC (ModelTest, ProtTest)

• hLRT (hierarchical likelihood ratio test) : compare les modèles entre eux (doivent être emboîtés)

• AIC (Akaike information criterion) : estime l’ajustement du modèle aux données en tenant compte du nombre de paramètres

• Choisir un modèle avec AIC le plus bas

ML - Avantages• Prend en compte la saturation

• Bonnes longueurs de branches

• Consistent : si le modèle est bon, convergence vers le bon arbre quand le nombre de données augmente

• Non sujet à l’attraction des longues branches si bon modèle

• Utilise toutes les données (pas de “sites informatifs”)

• Processus d’évolution et séquences ancestrales

• Assez robuste

73

74

75

76

ML - Inconvénients

• Inconsistant si le modèle n’est pas le bon

• Même le modèle le plus complexe est une simplification de la réalité

• Encore très lourd en calculs : besoin d’heuristiques donc de compromis

Inférence Bayesienne

• Technique la plus récente, de plus en plus utilisée (MrBayes, PhyloBayes, BayesPhylogenies)

• Mêmes modèles qu’en ML (MrModelTest)

• Basée sur la notion de probabilité postérieure, qui se base sur la connaissance des données à l’avance : probabilité a priori (prior) (sujet controversé)

• Quelle est la probabilité du modèle/arbre considérant les données ?

• Pr(T|D) = (Pr(T)Pr(D|T))/Pr(D)

probabilité posterieure

prior vraisemblance probabilité des données

• La formule de Bayes combine la probabilité a priori et la vraisemblance pour générer une probabilité postérieure : prior choisi comme non informatif (e.g. plat), ainsi la probabilité postérieure (pp) dépend essentiellement de la vraisemblance

• Ne cherche pas “le” meilleur arbre (idem pour tous les paramètres), mais explore l’espace des possibilités à l’aide d’une chaîne de Markov Monte Carlo (MCMC) et échantillonne les topologies obtenues dans le plateau des choix optimaux (e.g. hautes vraisemblances pour arbres) : intervalles de confiance, quantification du support des clades (pp)

77

78

79

80

• Pas d’étape de validation nécessaire : un très grand nombre d’arbres est généré, le consensus de l’échantillon donne les probabilités d’apparition des clades (si le modèle est le bon !) : plus rapide que le ML

• Problème : utiliser des chaînes de calculs assez longues. Utilisation de plusieurs chaînes afin de mieux explorer le treespace (MCMCMC = Metropolis coupled MCMC) et éviter de rester bloqué sur des pics suboptimaux

MCLong !

Approche traditionnelle(ML, MP)

Inférence Bayesienne

Tendance à accepter les arbres avec une meilleure

probabilité postérieure

Après un délai : échantillon d’arbres

de hautes probabilités postérieures

Distances

• Estimation du nombre moyen de changements entre paires de taxons

• Basée sur distances et non caractères individuels

• Données parfois uniquement sous forme de distances (hybridation ADN/ADN, sérologie, morphométrie, ...)

• Sinon transformation des données en matrice de distance

• Surtout pour données moléculaires

81

82

83

84

• Le simple pourcentage de différences entre séquences (p-distance) sous-estime généralement la vraie distance à cause de la saturation

• D’autant plus vrai que les séquences sont éloignées

• Utilisation d’un modèle corrigeant les distances (mêmes modèles et paramètres qu’en ML : JC, K2P, GTR, ...)

• Distances de départ ≠ distances patristiques (calculées à partir de l’arbre)

• Distances de départ (pairwise distances, éventuellement avec correction par un modèle)

• Distances patristiques

• pij ≠ dij

• Principal algorithme : Neighbor-Joining (NJ)

• Arbres additifs

• Dérivés : BioNJ, ...

• Il faut un critère pour l’ajustement des données d’origine à l’arbre (topologie et longueurs)

• Minimum evolution (ME) : minimise la longueur de l’arbre

• L’algorithme ne garantit pas lui-même d’atteindre un tel critère d’optimalité, même si le NJ s’en approche : mieux d’ajouter une étape d’optimisation

• NJ : part d'un arbre en étoile et forme séquentiellement les paires qui minimisent la longueur de l'arbre (somme des longueurs de branches)

• Tend à donner l'arbre le plus court mais pas d'optimisation pendant la procédure, qui est une simple agglomération (donc très rapide)

8 7

6

5 4

1

2

3

8

7

6

5

2 3

4

1

85

86

87

88

Distances - Avantages

• Rapide : seule méthode si nombre de taxons très élevé

• Beaucoup de modèles, testables par ML

Distances - Inconvénients

• Perte d’information : impossible de revenir aux séquences avec les distances

• Pas de scénarios évolutifs des caractères

• Souvent moins efficace que ML (simulations)

Validation

• Avec n’importe quelles données, on obtient un arbre, même s’il n’y a pas de signal phylogénétique dans ces données

• Pas moyen de tester si l’arbre est “le bon” (pas d’hypothèse nulle intéressante)

• On peut néanmoins estimer la confiance qu’on peut avoir dans un arbre

• Beaucoup de méthodes basées sur la randomisation (destruction ou altération du signal phylogénétique)

• La plupart de ces méthodes sont indépendantes de la méthode de reconstruction choisie

89

90

91

92

Bootstrap (non paramétrique)• Technique de ré-échantillonnage

• Création de nouveaux jeux de données (100, 1000,...) à partir de l’original : sélection aléatoire des caractères (colonnes) avec remise (sans remise : jacknife)

• Bruit dans la structure phylogénétique = estimation de la variance de l’échantillonnage

• Inférence de l’arbre à partir de chaque jeu

• Consensus majoritaire de tous arbres obtenus

• Pourcentage d’apparition des clades = support

• Très utilisé

• Suppose l’indépendance des caractères

• Suppose qu’ils sont “identiquement distribués”

• Pas un test statistique

• Souvent trop conservateur (proportions trop faibles)

Pour résumerDonnées

ADN, AA, morphologie, ...

Arbre(s)

Caractères Distances

Modèle ?Pondérations ?

(sites, changements)

AlignementLogiciel + yeux

Qualité des donnéesSaturation, homogénéité, ...

MéthodeType de données, nombre de taxons

Critère d’optimalité

ME...Oui

NJ...Non

ValidationBootstrap, PTP, Bremer, ...

DistancesModèle ?

MPMLBI

Logiciels• Pleins !!... et souvent gratuits !

• ... mais presque tous pour des données moléculaires, et implémentant des méthodes variées (MEGA, SeaView, DAMBE, FastDNAml, PhyML, MrBayes, Tree-Puzzle, ...).

• Pour les données morphologiques (et moléculaires) : Phylip (gratuit mais pas simple), PAUP (le meilleur, mais payant) qui contient le plus de méthodes et tests en tous genres

• Nombreux logiciels pour dessiner et modifier les arbres (TreeView, TreeEdit, NJ-Plot, FigTree, TreeDyn...)

• Aussi pour consensus (RadCon, PAUP, Component, ...), superarbres (RadCon, Rainbow, Clann, SuperTree, ...)

93

94

95

96

initiation à la reconstruction phylogénétique - edu.upmc.fr€¦ · initiation à la...

Documents