séance 4 : reconstruction phylogénétique par analyse
TRANSCRIPT
http://162.38.181.1/Pise/
Séance 4 : Reconstruction Phylogénétique par Analyse Bayésienne
http://frederic.delsuc.neuf.fr/fd_formation
Les méthodes probabilistes et la fonction de vraisemblance
La fonction de vraisemblance est la probabilité conditionnelle d’observer les données sous une hypothèse phylogénétique donnée
(i. e., un arbre avec des longueurs de branches)
LD = P (Données | Arbre)
Arbre = topologie + longueurs de branches + paramètres du modèle
2. Inférence Bayésienne (Bay)
- Méthode de densité : Intègre sur l’espace des paramètres
- Echantillonne les arbres selon leur Probabilité Postérieure (PP)
1. Maximum de Vraisemblance (ML)
- Méthode d’optimisation :estime les paramètres
Postérieure (PP)En utilisant le théorème de Bayes qui combine
la fonction de vraisemblance avec une probabilité a priori sur les arbres :
P (Arbre | Données)=
P (Données | Arbre) . P (Arbre) / P (Données)
- et sélectionne l’arbre qui maximise la fonction de vraisemblance :
P (Données | Arbre)
Les méthodes probabilistes sont basées surdes modèles explicites d’évolution des séquences
Fréquences en basesππππ
Fre
qu
ency
Sites invariablesI
Fre
qu
ency
A C G T
I
varPro
po
rtio
n
invar
Modèles d’évolution des séquences
Ex: Le modèle le plus riche en paramètres
GTR + ΓΓΓΓ + I
Taux de substitutionr
A G
C T
rGTrAC
rAG
rCT
rATrCG
Transition
Transition
Transversions
Hétérogénéité des tauxΓΓΓΓ
Taux
# si
tes
Différence entre Maximum de Vraisemblance et Approche Bayésienne
ML : A > B
Bay : A < B
Vra
isem
bla
nce
ou
PP
Holder & Lewis (Nat Rev Genet 2003)
Vra
isem
bla
nce
ou
PP
Les distributions de probabilité a posteriori
Avec 2 paramètres la distribution a posteriori devient une surface :
Avec plus de 2 paramètres on obtient une distribution a posteriori
multidimensionnelle non représentable graphiquement
Une approche probabiliste avec des a priori.
P (Données | Arbre) x P (Arbre) / P (Données)
P (Arbre | Données) =Théorème de Bayes :
L'inférence bayésienne utilise des chaînes de Markovavec technique de Monte Carlo (MCMC) pour approximer
les probabilités postérieures des arbres.
Probabilité a posteriori Vraisemblance Probabilité a priori
Le théorème de Bayes en phylogénie
La probabilité a posteriori du ième arbre ττττi sachant les données X est :
Problème :Le calcul du dénominateur nécessite d’intégrer la fonction de vraisemblance sur
toutes les combinaisons [B(s)] possibles de topologies (ττττ),longueurs de branches (υυυυ) et paramètres du modèle de substitution (θθθθ et αααα)
Ce qui est analytiquement impossible !!
CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ
100 pas
Chaque pas :
Une marche aléatoire… en terrain plat !
Chaque pas :- longueur variable ;- direction aléatoire.
CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ
1000 pas
Une marche aléatoire… en terrain plat !
CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ
10000 pas
Une marche aléatoire… en terrain plat !
CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ
100 pas
Une marche aléatoire… en montagne !
CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ
- Un pas en montant
100 pas
- Un pas en montantest toujours possible ;
Une marche aléatoire… en montagne !
- Un pas en descendantest évalué.
Mont Blanc (4 808 m) Chamonix (1 042 m)
R1 = 0,2
R2=
0,9
Choix d'un nombre aléatoire x ∈ [0, 1]
Si x < R1, la descente est acceptée.
Refuge Vallot (4 362 m) Grandes Jorasses (4 208 m)
CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ
La trajectoire visite
1000 pas
les points du paysage
de manière proportionnelle
Une marche aléatoire… en montagne !
de manière proportionnelleà leur altitude.
[Delsuc & Douzery 2004]
CHAÎNES DE MARKOVAVEC TECHNIQUE DE MONTE CARLO (MCMC) :ANALOGIE AVEC LE RANDONNEUR MASQUÉ
Les points du paysageLes points du paysage
10000 pas
les plus élevés sont les plus élévés
Une marche aléatoire… en montagne !
les plus fréquemment visités
[Delsuc & Douzery 2004]
sont les plus fréquemmentvisités
COUPLAGE DE METROPOLIS (MCMCMC)
Permutation des états entre deux Chaînes de Markov afin d’explorer au mieuxl’espace des paramètres et d’éviter les optimums locaux.
OPTIMUM
Optimum local
MC 1froide
MC 2chauffée
Effet du chauffage des chaines sur l’exploration du paysage
Chaîne froide
Chaîne chauffée 1
Chaîne chauffée 2
Chaîne chauffée 3Chaîne chauffée 3
4 chaînes1 froide
et3 chauffées
allumage-7000
-6500
-6000
-5500
-50000 20000 40000 60000 80000 100000
L'ANALYSEBAYÉSIENNE.
Les chaînes
lnLallumage
-8000
-7500Les chaînesde Markov
avec techniquede Monte Carlo
explorentl'espace
-5350
-5340
-5330
phase stationnaire
l'espacedes paramètres.
-5400
-5390
-5380
-5370
-5360
Générations
-4600
-4400
-4200
-4000
-5600
-5400
-5200
-5000
-4800
lnL
10chaînescouplées
-6000
-5800
-5600
Générations (MCMCMC)[atpB, g-protéobactéries]
couplées
-4050
-4040
-4030
-4080
-4070
-4060
lnL
-4100
-4090
1000 1100 1200 1300 1400 1500 1600 1700 1800 1900 2000
Générations (MCMCMC)
-54389
-54387
-54385
lnL Topologie 1 Topologie 2
Topologie 4 Topologie 5Topologie 3
79,4%
-54399
-54397
-54395
-54393
-54391
19,8%
0,1%
0,4%
-54405
-54403
-54401
-54399
0 50000 100000 150000 200000 250000 300000
Générations MCMCMC
0,4%
0,3%
UN EXEMPLE D'INFÉRENCE BAYÉSIENNE
Bradypus
Choloepus
Arbre à la plus forteProbabilité Postérieure (PP)
Taxons : 10 xénarthres ; Molécule : ARNr 12S ; Modèle : HKY85 + G8
1.00Choloepus
Cyclopes
Myrmecophaga
D. kappleri
D. novemcinctus
Probabilité Postérieure (PP)
1.00
0.87
lnL = -3 753
D. novemcinctus
Chaetophractus
Euphractus
Cabassous
Priodontes
1.001.00
0.87
0.61
PP des clades
LE PROBLÈME DE LA CONVERGENCE DES CHAÎNES
http://king2.scs.fsu.edu/CEBProjects/awty/awty_start.php
Are We There Yet ? (AWTY)
LE PROBLÈME DE LA CONVERGENCE DES CHAÎNES
http://king2.scs.fsu.edu/CEBProjects/awty/awty_start.php
Are We There Yet ? (AWTY)
11
12
13
14
k
6
7
8
9
10
1 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000
k
Générations MCMCMC
UN EXEMPLE D'INFÉRENCE BAYÉSIENNE
300
Taxons : 10 xénarthres ; Molécule : ARNr 12S ; Modèle : HKY85 + G8
k moyen = 9.46
150
200
25095% CredI = 7.43-12.21
0
50
100
6 8 10 12 14 16 18 Ti / Tv
1000
1200
a moyen = 0.18
UN EXEMPLE D'INFÉRENCE BAYÉSIENNE
Taxons : 10 xénarthres ; Molécule : ARNr 12S ; Modèle : HKY85 + G8
400
600
800
1000
95% CredI = 0.15-0.23
0
200
400
0,1 0,15 0,2 0,25 alpha
Quelle est la relation entre BPML et PP ?
90
100
y = 0.3979x + 61.497
R² = 0.4078
30
40
50
60
70
80
PP
0
10
20
0 10 20 30 40 50 60 70 80 90 100
BPMLDonnées originales : Karol et al. (2001); Murphy et al. (2001); Buckley et al. (2002); Leaché & Reeder (2002); Whittingham et al. (2002); Wilcox et al. (2002).
Conflits topologiques (I)
Diemeniana frenchi
Diemeniana tillyardi
Amphipsalta cingulata
AUS
NZ
Phylogénie des Cigales du Pacifique [Buckley et al. (2002) Syst. Biol.]
Notopsalta sericea
Cicadetta celis
Cicadetta puer
Pauropsalta johanae
Myersalna depicta
Kikihia scutellaris
Kikihia cauta
NC
NZ
AUS
Kikihia cauta
Maoricicada cassiope
Maoricicada hamiltoni
Rhodopsalta cruentata
Rhodopsalta leptomera
NZ
Diemeniana frenchi
Diemeniana tillyardi
Amphipsalta cingulata
Notopsalta sericea
Mitochondrial Nucléaire
Conflits topologiques (I)
Notopsalta sericea
Cicadetta celis
Cicadetta puer
Pauropsalta johanae
Myersalna depicta
Kikihia scutellaris
Kikihia cauta
Maoricicada cassiope
Maoricicada hamiltoni
0.01
PP = 0.94PP = 0.93
Kikihia cauta
Maoricicada cassiope
Maoricicada hamiltoni
Rhodopsalta cruentata
Rhodopsalta leptomera
Maoricicada hamiltoni
Kikihia scutellaris
Kikihia cauta
BPML = 69 BPML = 65
Conflits topologiques (II)
Phylogénie des Elasmobranches [Douady et al. (2003) Mol. Phylogenet. Evol.]
Petromyzon Siren
Polymixia
Rajiformes
Chimaeriformes
12S-16S rRNA (23 taxa) 12S-16S rRNA (21 taxa)
RajiformesMyliobatiformes
Hexanchiformes
Squatiniformes
Orectolobiformes
Heterodontiformes Pristiophoriformes
Squaliformes
Hexanchiformes
Orectolobiformes
Heterodontiformes
Lamniformes
Carcharhiniformes
Orectolobiformes
PP = 0.99 PP = 0.98BPML = 53 BPML = 61
BPML versus PP : Des Oranges et des Pommes ?
Jeu dedonnées
Recherche
MLArbre ML
Inférence
Bayésienne
ConsensusBayésien
PP
Bayes Bayes Bayes
Bootstrap resampling
BootstrapRéplication 1
BootstrapRéplication 2
BootstrapRéplication n
ML ML ML
PP
?
Bayes1
Bayes2
Bayesn
MCMCArbres 1
MCMCArbres 2
MCMCArbres n
BPBay
ML1
ML2
MLn
MLArbre 1
MLArbre 2
MLArbre n
BPML
Corrélation entre BPML et PP ou BPBay
6 jeux de données empiriques indépendants(
Données R2 Pente B R2 Pente B
1. Orchidées. ITS. 682 nt 0,85 0,59 44,09 0,99 1,22 21,47
2. Xénarthres. vWF. 1161 nt 0,93 0,74 27,29 0,99 1,07 8,13
3. Cigales. EF1a. 2033 nt 0,75 0,36 64,33 0,99 1,07 6,97
3' Cigales. Mitochondrial. 2249 nt 0,75 0,59 43,89 0,99 1,10 9,95
4. Trois Domaines. HMGR. 258 aa 0,73 0,59 43,89 0,98 0,98 1,77
1 2 3 4 5 6
4. Trois Domaines. HMGR. 258 aa 0,73 0,59 43,89 0,98 0,98 1,77
5. Requins. 12S-16S (23 taxa) 0,52 0,18 83,48 0,96 0,95 2,81
5'. Requins. 12S-16S (21 taxa) 0,49 0,38 64,70 0,99 0,98 1,19
6. Boas. 12S-16S.1545 nt 0,27 0,25 73,37 0,95 0,93 4,85
Concaténation des 6 jeux de données 0,54 0,47 55,64 0,96 1,01 1,85
Concaténation des 8 jeux de données 0,54 0,45 57,40 0,97 1,01 1,38
6 jeux de donnéesempiriques
indépendants(15-20 taxons)
90
100
Corrélation entre BPML et PP ou BPBay
30
40
50
60
70
80
90
y = 1.01x - 1.85R² = 0.96
BPBay
y = 0.47x + 55.64R² = 0.54
PP
BPML
0 10 20 30 40 50 60 70 80 90 1000
10
20
30
Douady et al. (2003) Mol. Biol. Evol.
Disparition des conflits topologiques (I)
Diemeniana frenchi
Diemeniana tillyardi
Amphipsalta cingulata
Notopsalta sericea
Mitochondrial Nucléaire
Notopsalta sericea
Cicadetta celis
Cicadetta puer
Pauropsalta johanae
Myersalna depicta
Kikihia scutellaris
Kikihia cauta
Maoricicada cassiope
Maoricicada hamiltoni
PP = 0.94PP = 0.93
0.01
Kikihia cauta
Maoricicada cassiope
Maoricicada hamiltoni
Rhodopsalta cruentata
Rhodopsalta leptomera
Maoricicada hamiltoni
Kikihia scutellaris
Kikihia cauta
BPML = 69 BPML = 65BPBay = 59 BPBay = 65
Disparition des conflits topologiques (II)
Phylogénie des Elasmobranches [Douady et al. (2003) Mol. Phylogenet. Evol.]
Petromyzon Siren
Polymixia
Rajiformes
Chimaeriformes
12S-16S rRNA (23 taxa) 12S-16S rRNA (21 taxa)
RajiformesMyliobatiformes
Hexanchiformes
Squatiniformes
Orectolobiformes
Heterodontiformes Pristiophoriformes
Squaliformes
Hexanchiformes
Orectolobiformes
Heterodontiformes
Lamniformes
Carcharhiniformes
Orectolobiformes
PP = 0.99 PP = 0.98BPML = 53 BPML = 61BPBay = 47 BPBay = 57
Effets de l’inadéquation du modèle d’évolution sur les PP
Sur-paramétrage
Sous-paramétrage
Lemmon et Moriarty (2004) Syst. Biol.
L’utilisation de modèles sous-paramétrés est particulièrement problématique pour l’estimation des PP