molecular clock hypothesis: rates and dates molecular ...evolucao/popgen/newpopgen.pdf · minimiza...

10
1 Inference in statistical genetics Evolutionary biology and the reverse problem – Estimate probabilities of past (ancestral) states given observations Most other science deals with the forward problem: – estimate probabilities of future events given initial state. Test prediction with experiment. é mais fácil cultuar os mortos que os vivos mais fácil viver de sombras que de sóis é mais fácil mimeografar o passado que imprimir o futuro Molecular clock hypothesis: Rates and dates Evolutionary Hypothesis (H) t i = δ i /µ = ? t l =? t k =? A tree reconstructed from molecular data under the assumption of a molecular clock. Branch lengths are in units of expected substitutions per site. t j =? Substitutions per site 0 0.025 0.05 0.075 0.1 δ i is node height in substitutions µ is (constant) substitution rate t i is age of node Evolutionary Hypothesis (H) 6-7 Myr ~3 Myr This looks half human, half chimp calibration of ancestral node age ~0.1-1.0 Myr ~10 Myr µ = δ j /t j = 0.06/6 =0.01 s/s/Myr Molecular clock hypothesis: Rates and dates Molecular clock hypothesis: Tree problems Evolutionary Hypothesis (H) 6-7 Myr What about different genes and different tree reconstruction methods? ~17 Myr 6 Myr Molecular clock hypothesis: Calibration problems Evolutionary Hypothesis (H) 6-7 Myr 6-7 Myr Probability of sampling a direct ancestor 0 Where in the tree should this fossil actually go? 7 Myr or 50 Myr? Molecular clock hypothesis: Ancient DNA solution? Evolutionary Hypothesis (H) 6-7 Myr If we had ancient DNA extracted from this fossil, it might, for example, be recognized as being most closely related to gorillas. ~12 Myr ~8 Myr

Upload: vuongliem

Post on 28-Dec-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

1

Inference in statistical genetics• Evolutionary biology and the reverse

problem– Estimate probabilities of past (ancestral) states

given observations• Most other science deals with the forward

problem: – estimate probabilities of future events given

initial state. Test prediction with experiment.

é mais fácil cultuar os mortos que os vivosmais fácil viver de sombras que desóisé mais fácil mimeografar o passado que imprimir o futuro

Molecular clock hypothesis: Rates and dates

Evolutionary Hypothesis (H)

ti= δi/µ = ?

tl=?

tk=?

A tree reconstructed from molecular data under the assumption of a molecular clock.Branch lengths are in units of expected substitutions per site.

tj=?

Substitutions per site

0

0.025

0.05

0.075

0.1

δi is node height in substitutions µ is (constant) substitution rateti is age of node

Evolutionary Hypothesis (H)

6-7 Myr

~3 MyrThis looks half human, half chimp →calibration of ancestral node age

~0.1-1.0 Myr

~10 Myr

µ = δj/tj = 0.06/6 =0.01 s/s/Myr

Molecular clock hypothesis: Rates and dates Molecular clock hypothesis: Tree problems

Evolutionary Hypothesis (H)

6-7 Myr

What about different genes and different tree reconstruction methods?

~17 Myr

6 Myr

Molecular clock hypothesis: Calibration problems

Evolutionary Hypothesis (H) 6-7 Myr

6-7 Myr

Probability of sampling a direct ancestor → 0

Where in the tree should this fossil actually go?

7 Myr or 50 Myr?

Molecular clock hypothesis: Ancient DNA solution?

Evolutionary Hypothesis (H)

6-7 MyrIf we had ancient DNA extracted from this fossil, it might, for example, be recognized as being most closely related to gorillas.

~12 Myr

~8 Myr

2

Árvores de Genes são genealogias de genes. Como cópias diferentes em loci homólogos estão relacionados pela ordem de eventos de coalescência.

Árvore de gene e árvore de haplótipos

Únicos passos que podemos “ver” são os marcados por eventos mutacionais

Árvores de Genes são genealogias de genes. Como cópias diferentes em loci homólogos estão relacionados pela ordem de eventos de coalescência.

Árvore de gene e árvore de haplótipos

A esta árvore de mais baixa resoluçãochamamos de árvorede haplótipos ou de alelos.

Árvore de haplótipo Árvore de haplótipo -- Antigas e recentes

Dobzhansky & Sturtevant (1936): An Inversion Tree for Drosophilapseudoobscura (A) and D.persimilis (B)

Idealmente cada inversão ocorre apenas uma vez na árvore e a árvore minimiza o número total de mutações – Modelo de Alelos Infinitos

3

Idealmente cada inversão ocorre apenas uma vez na árvore e a árvore minimiza o número total de mutações -- Máxima Parcimônia

Máxima Parcimônia (e outros métodos) permite inferir estados deancestrais extintos.

Árvore é enraizada com espécie relacionada que esteja filogeneticamente fora do grupo de interesse - Grupo externo.

Árvore de inversões não equivale sempre a árvore de espécies, ou populações - Polimorfismo Transpecífico.

Árvore de gene e árvore de haplótipos

Polimorfismo transpecífico (polimorfismoancestral, sorteamento de linhagem) – Quando alguns dos haplótipos encontrados em uma espécie são genealogicamente mais aparentados alinhagens de haplótipos encontrados em outra espécie do que a linhagens da própria espécie.

Árvore de gene e árvore de haplótipos

Polimorfismo transpecífico, ou polimorfismoancestral, ou ainda sorteamento de linhagem

4

Freqüência e topologia são misturadas. Mutação é mais provável em haplótipos comuns. Politomias e ramos pequenos são esperadas.

Modelo de Sítios Infinitos

1

2

3

4

5

Mutações1 2 3 4 5 6

Seqü

ênci

as

7

Cada mutação ocorre em um nucleotídeo diferente

LPL Has 10 Exons Over 30 kb of DNA on Chromosome 8p22

Sequenced 9,734 bp from the 3’ End of Intron 3 to the 5’ End of Intron 9

Sequenced:24 Individuals from North Karelia, Finland (World’s Highest Frequency of CAD)23 European-Americans from Rochester, Minnesota24 African-Americans from Jackson, Mississippi

Found 88 Variable Sites

Ignored Singleton and Doubleton Sites and Variation Due to a Tetranucleotide Repeat, but Phased the Remaining 69 Polymorphic Sites by a Combination of Using Allele SpecificPrimer Pairs and Haplotype Substraction

The Phased Site Data Identified 88 Distinct Haplotypes

Genetic Survey of Lipoprotein Lipase

Ln-Likelihood ratio teste de homogeneidade = 99.8, 3 df, p = 1.75 x 10-7

Ln-Likelihood ratio teste de homogeneidade nas 3 classes mutáveis = 12.3, 2 df, p = 0.002

Análise de sítios altamente mutáveis

Type of Site # Nt # polym % polym p/ nt

CPG

198 19

9.6% Mononucleotide runs > 5

456 15

3.3% Poly α arrest site ± 3 nucleotides [TG(A/G)(A/G)GA]

264

8 3.0%

All other nucleotides

8,866 46

0.5%

Região Tipo do Sítio 0-1 Homoplasias >2 Homoplasias

5’ e 3’ Altamente mutável

11 14 Flanqueadora

Todos os outros

22 5

Sítios altamente mutáveis em LPL e homoplasia

Recombinational Hotspot

Altamente mutável

3 7 Todos os

outros 5 2

Todos Altamente mutável

14 21 Todos os

outros 27 7

Fisher's Exact Test: P = 0.0013 sob a hipótese nula de homogeneidade

Fisher's Exact Test: P = 0.0013 sob a hipótese nula de homogeneidade

ε4

ε3ε2

Árvore de haplótipos

da Apolipo-protein E

5

Árvore de haplótipos da Apolipo-protein E

4036

Coalescente de haplótipos deApo-protein E

ε4

Anos(x 105)

ε2 ε39 16 6 27 2 28 1 14 29 30 12 13 17 20 5 31

3.2

1.6

0.0

0.8

2.43937

4075

5229B

624

308

3673

545

2440

3106

19981163

1522 3701 2907

4714951

73

Árvore de haplótipos

da Apolipo-protein E

560

560

560

560560

560

1575

624

624624

624

1522

5361

5361

5361

4951

4951

4951

832

83224401998 19983937

5229B

4075

1163 4036

73

471

14

1119

17 20 18

23

1512

25

13

10 16

24

2

22

67 5

1

1575

560

624 624

21

26

4

3

31

3106

28545

27 3673

308

29 3701

8

302907

9

ε3

ε2

ε4

Sítios 560 e 624 estão em uma repetição Alu

Modelo de Sítios Finitos

1

2

3

4

5

Mutações1 2 3 4 5 6

Seqü

ênci

as7

Um conjunto finito de nucleotídeos são sujeitos à mutação e podem sofrer eventos mutacionais múltiplos

Uso de métodos não apropriados para estudos intraspecíficos

Porque não apropriados:• baixa divergência• ancestral não está extinto• Politomia• reticulação• tamanho amostral grande

Parcimônia estatística

Redes ou árvores que alocam homoplasia entre haplótipos menos divergentes com probabilidade menor do que 0.05 são eliminadas em favor de outras que alocam tais homoplasias entre haplótipos mais divergentes

6

Árvore genealógica

Em estudos intraspecíficos:•NÃO esperamos que o ancestral esteja extinto;• Politomias são esperadas. Na verdade,politomias são PROVÁVEIS;• Como alelo ancestral não está extinto, esperamos que alelos mais antigos tenham maior freqüência. Por outro lado, novos alelos devem ter baixa freqüência;• É mais provável que um alelo raro seja derivado de um alelo comum do que de outro raro;

Árvore de haplótipos

Em estudos intraspecíficos:•NÃO esperamos que o ancestral esteja extinto;• Politomias são esperadas. Na verdade, politomias são PROVÁVEIS;• Como alelo ancestral não está extinto, esperamos que alelos mais antigos tenham maior freqüência. Por outro lado, novos alelos devem ter baixa freqüência;• É mais provável que um alelo raro seja derivado de um alelo comum do que de outro raro;

Podemos usar estas esperanças para resolver“loops” ou homoplasias nos dados

Máxima parcimônia Parcimônia estatística

Árvore genealógicaEm estudos intraspecíficos:•NÃO esperamos que o ancestral esteja extinto;• Politomias são esperadas. Na verdade, politomias são PROVÁVEIS;• Como alelo ancestral não está extinto, esperamos que alelos mais antigos tenham maior freqüência. Por outro lado, novos alelos devem ter baixa freqüência;• É mais provável que um alelo raro seja derivado de um alelo comum do que de outro raro;

Podemos usar estas esperanças para resolver“loops” ou homoplasias nos dados

Árvore de haplótipos

• Geralmente NÃO sabemos a raiz;• Alelos antigos tem mais chance de serem nós internos, ao invés de pontas (tips).

ε4

ε3ε2

Árvore de haplótipos

da Apolipo-protein E

560

560

560

560560

560

1575

624

624624

624

1522

5361

5361

5361

4951

4951

4951

832

83224401998 19983937

5229B

4075

1163 4036

73

471

14

1119

17 20 18

23

1512

25

13

10 16

24

2

22

67 5

1

1575

560

624 624

21

26

4

3

31

3106

28545

27 3673

308

29 3701

8

302907

9

ε3

ε2

ε4

Árvore de haplótipos

da Apolipo-protein E

Um único haplótipo pode ter segmentos de DNA que tiveram padrões de mutação e coalescência diferentes no passado.Não existe uma única história evolutiva para estes haplótiposrecombinantes.Quando a recombinação é comum e uniforme, mesmo a idéia de uma árvore de haplótipos torna-se biologicamente sem sentido.

Importante investigar sua presença!

Coalescência e recombinação

7

A recombinação ocorre em todos os genótipos, mas muda o estado do gameta parental apenas em duplos heterozigotos.

A recombinação muda a fasede marcadores polimórficos.

Para se detectar e estudar a recombinação, é essencial ter dados com fase conhecida(como haplótipos)

Experimento Binomial

• Quando jogado, pode cair em duas posições:Ponta ou cabeça.

• Chamamos θ a probabilidade (desconhecida) P(H).

Ponta Cabeça

Estimativa:Dada uma seqüência de amostras de lançamentosx[1], x[2],…,x[M] queremos estimar as probabilidades P(H) = θ e P(T) = 1 - θ.

Parâmetros estatísticos

• Considere exemplos x[1], x[2], …, x[M] de tal forma que:– O conjunto de valores que x pode ter é conhecido.– Cada um é amostrado da mesma distribuição.– Cada um é amostrado independentemente da outra.

Achar vetores de parâmetros Θ que geraram os dados encontrados. Tal vetor de parâmetros Θ pode ser usado para prever dados futuros.

A função de verossimilhança• Quão bom é um θ em particular?

Depende de quão provável é de gerar os dados observados:

A verossimilhança da seqüência H,T, T, H, H é:∏==

mD mxPDPL )|][()|()( θθθ

θθθθθθ ⋅⋅−⋅−⋅= )1()1()(DL

0 0.2 0.4 0.6 0.8 1θ

L(θ)

Estatística Suficiente

• Para computar a verossimilhança no exemplo da tachinha apenas precisamos saber NH e NT.

THD

NNL )1()( θθθ −⋅=• NH e NT são estatísticas suficientes

para a distribuição binomial.

Estatística Suficiente• Uma estatística suficiente é uma função do

dado que sumariza a informação relevante para a verossimilhança.

• Formalmente, s(D) é uma estatística suficiente se, para quaisquer dois datasets D eD’:

s(D) = s(D’ ) ⇒ LD(θ) = LD’(θ)

Datasets

Estatística

8

Estimativa da Máxima Verossimilhança

Princípio: MLE escolhe os parâmetros que maximizem a função verossimilhante

• Um dos estimadores mais comuns em estatística.

• Entendimento intuitivo.

• Geralmente maximizada uma função log-likelihood definida como lD(θ) = logeLD(θ).

Máxima Verossimilhança

Procura as explicações que tornam os dados observados mais prováveis.

Formalmente: Dados D e Hipótese H

LD=Pr(D/H)D: grupo de seqüências comparadasH: Árvore filogenética

Máxima Verossimilhança

• O modelo evolutivo que torna os dados o mais provável resultado evolutivo é a estimativa de máxima verossimilhança da história evolutiva.

• Distinção entre verossimilhanças e probabilidades.• Probabilidades somam no total 1, enquanto

verossimilhanças não.

Verossimilhança é a probabilidade que o modelo evolutivo (árvore) tenha dado origem aos dados coletados.

Máxima Verossimilhança

ML requer três elementos:- um modelo de evolução de seqüência- Uma história evolutiva (árvore)- Os dados observadosMétodos de ML de construção de filogenias

devem resolver dois problemas:- Qual o valor de ML para uma dada topologia?- Qual das possíveis árvores tem a maior

verossimilhança?

Máxima Verossimilhança

Suponha que tenhamos duas seqüências: 1 e 2 que são separadas por uma média de dsubstituições por sítio.

d=µt µ= taxa de mutação t= tempo

Com um modelo de substituição podemos computar a probabilidade Pij(d) que duas seqüências separadas por dteria nucleotídeos i e j.

1 2d

O log likelihood de se obter as seqüências observadas é a soma dos log likelihoods de cada sítio individual:

ln L = ∑ ln Lii=1

kk = número de sítios

MLE em dados binomiais

Aplicando o princípio da MLE temos que

( ) ( )θθθ −+= 1loglog THD NNlθθ −

=⇒1

TH NN

0 0.2 0.4 0.6 0.8 1

L(θ)

Exemplo:(NH,NT ) = (3,2)

Estimativa de MLE = 3/5= 0.6

TH

H

NNN+

=⇒ θ̂

(que coincide com o que esperaríamos)

9

E MLE é tudo o que precisamos?

• Suponha que após 10 observações,– MLE de P(H) = 0.7 para as tachinhas.– Você apostaria em cabeça na próxima jogada?

• Suponha que após 10 observações,– MLE de P(H) = 0.7 para uma moeda.– Você continuaria com a mesma aposta?

Solução: A metodologia Bayesiana que incorpora seu conhecimento prévio subjetivo. Como podemos usar este conhecimento prévio?

Regra de Bayes

( ) ( ) ( ))(

||xP

yPyxPxyP ⋅=

( ) ( ) ( )yPyxPyxP ⋅= |,

Em que,

Bayes

( ) ( ) ( )∑ ⋅=y

yPyxPxP |

Se mantém porque:

( ) ( ) ( ) ( )∑∑ ⋅==yy

yPyxPyxPxP |,

Exemplo: Um cassino desonesto

• Um cassino usa 2 tipos de dados:99% é correto.1% é viciado: 6 aparece 50% das vezes

• Pegamos um dados ao acaso e jogamos 3 vezes.• Obtemos 3 seis consecutivos.

Qual é a probabilidade do dado ser viciado?

Podemos resolver este problema usando a regra de Bayes e o fato que enquanto P(viciado | 3 seis)não é conhecido, os outros 3 termos da regra de Bayes são:

• P(3 seis | viciado)=(0.5)3

• P(viciado)=0.01• P(3 seis) = P(3 seis|vic) P(vic)+P(3 seis|norm) P(norm)

)3()()|3()3|(

seisPviciadoPviciadoseisPseisviciadoP ⋅

=

Um cassino desonesto

Um cassino desonesto

( )

( )21.0

99.06101.05.0

01.05.0

)()|3()()|3()()|3(

)3()()|3()3|(

33

3

=

+⋅

⋅=

=+⋅

=

=⋅

=

normPnormseisPviciadoPviciadoseisPviciadoPviciadoseisP

seisPviciadoPviciadoseisPseisviciadoP

Teorema de Bayes

• Pr[Tree | Data] = probabilidade a posteriori= probabilidade que a topologia

esteja correta

• Pr[Data | Tree] = Verossimilhança

• Pr[Tree] = probabilidade a priori

10

Análise Bayesian

Fig. 1. Main components of a Bayesian analysis

Probabilidade a priori

Verossimilhança

Probabilidade a posteriori

Markov Chain Monte Carlo (MCMC)

• Técnica para inferência Bayesiana• Correlation random walk• Várias repetições provém uma melhor

aproximação

Princípios do MCMC : Passos

Comprimento:

Direção:

Princípios do MCMC : Direção

Princípios do MCMC : Direção e colinas Modelo de probabilidade Bayesiano completo

Z1

Pr{D | g, µ, Q}fG(g | Ne) fµ(µ)fN(Ne )fQ(Q)=

Constante normalizadora desconhecida

Kingman coalescent prior

Felsenstein likelihood outros priors

P(g, µ, Ne, Q | D)

Densidade da probabilidade conjunta de acidentes históricos e processos evolutivos.

MCMC pode ser usada para fornecer uma cadeia de amostras desta densidade. Densidades marginais de qualquer parâmetro de interesse são obtidos por ignorar parâmetros inconvenientes.