esquema del tema - universitat de barcelona · cadenas de markov en biologia computacional alex s...

'

&

$

%

Cadenas de Markov y aplicaciones

en biologıa computacional

Alex Sanchez

Departament d’Estadıstica U.B.

Estadıstica i Bioinformatica

Cadenas de Markov en Biologia Computacional Alex Sanchez'

&

$

%

Esquema del tema

Modelos de secuencias biologicas

Cadenas de Markov

• Definicion y conceptos basicos

• Ecuaciones de Chapman Kolmogorov

• Distribuciones estacionarias e invariantes

Inferencia con cadenas de Markov

• Verosimilitud

• Estimacion (MV) de los parametros.

Aplicaciones de los MM en biocomputacion

• Islas CpG

• Modelos de evolucion molecular

• Matrices de sustitucion

Departament d’Estadıstica U.B. 1


&

$

%

1. Modelos probabilısticos de secuencias

biologicas

Deseamos responder cuestiones del tipo de:

• Reconocimiento de patrones: ¿Esta secuencia es un

sitio de “splice”?

• Discriminacion entre modelos: ¿A que se parece mas

esta proteına, a una hemoglobina o a una mioglobina?

• Busqueda en bases de datos: ¿Que secuencias, si hay

alguna, de SWISS PROT son parecidas a una dada?

Los modelos probabilısticos de secuencias biologicas resultan

adecuados para hacerlo



&

$

%

Puntuacion de secuencias

La idea basica en muchos metodos, es puntuar las secuencias

con la probabilidad que les asigna un modelo M dado,

S(x) = P (x|M),∑

∀x

P (x|M) = 1.

Esto permite tambien establecer una medida de cuan verosimil

resulta un modelo, a la vista de una secuencia:

L(M|x) ∝ P (x|M)



&

$

%

Podemos reformular las cuestiones anteriores en terminos de

probabilidad o verosimilitud. Por ejemplo:

La cuestion sobre reconocimiento de patrones:

• ¿Esta secuencia es un sitio de “splice”?

• equivale a preguntarse si: ¿Es P (x|Msplice) suficientemente

alta para decidir que sı lo es?

El problema de discriminacion entre modelos:

• ¿A que se parece mas esta proteına, a una hemoglobina o a

una mioglobina?

• Sera equivalente a ¿Que es relativamente mayor

L(Mmiog|x) o L(Mhemo|x)?



&

$

%

Mas sobre modelos probabilısticos ...

Stochastic Modeling Techniques: Understanding and using

hidden Markov models

• 2.1. What is a model y

• 2.2. Bayesian statistics When does a sequence fit a model?

http://www.cse.ucsc.edu/research/compbio/sam.html



&

$

%

Tipos de modelos para secuencias

Los tipos mas utilizados de modelos son:

Secuencias de sucesos independientes

Modelos de Cadenas de Markov

Modelos Ocultos de Markov



&

$

%

2. Modelos de independencia

Podemos imaginar que una secuencia de nucleotidos (AN) o

aminoacidos (proteınas) se origina a partir de lanzamientos

independientes de una moneda de 4 (AN) o 20 caras (AA)

• Por ejemplo en los AN podemos obtener A, con

probabilidad PA, C con probabilidad PC , G con

probabilidad PG y T con probabilidad 1 − PA − PC − PG .

• Observamos la secuencia de resultados O = GATTACA.

Podemos modelizar esta situacion suponiendo que tenemos

realizaciones independientes de una variable aleatoria que toma

valores en {0, 1}4 segun cada nucleotido sea A,C,G, T con

probabilidades PA, PC , PG, PT



&

$

%

2.1. Probabilidad y verosimilitud

Bajo el modelo de independencia (M) la probabilidad de

observar la secuencia O sera:

P (O|M) = PG · PA · PT · PT · PA · PC · PA = P 3A · P 1

C · P 1G · P 2

T

Dada una secuencia formada por nA, As, nC Cs, etc la

verosimilitud del modelo M sera:

L(M |O) = P nA

A · PnC

C · PnG

G · PnT

T .



&

$

%

Estimacion de los parametros

La estimacion maximo verosimil de los parametros resulta

(confırmelo):

PMLA =

nA

n, PML

C =nC

n, PML

G =nG

n, PML

T =nT

n.

Una estimacion bayesiana, tomando como prior una

distribucion de Dirichlet,

Dir(αqA, ..., αqT ),∑

qi = 1

y como estimador la media de la distribucion posterior(MPE)

da un resultado similar:

PMPEi =

ni + αqi

n + α, i = A,C,G, T.

salvo por los pseudocontajes αqi, que a veces se interpretan

como una pequena perturbacion de la muestra para evitar

estimaciones iguales a cero.



&

$

%

Los modelos de independencia resultan utiles como modelo nulo

pero suponer que hay independencia entre los sucesos suele ser

una simplificacion excesiva.

• Correlaciones entre los nucleotidos debido a su pertenencia

a uno u otro codon,

• Correlaciones entre codones por la presencia de senales,

• Correlaciones entre las secuencias de AA debido a los

plegamientos de las proteinas...

En estos casos resultan adecuados modelos capaces de capturar

las relaciones de dependencia entre un suceso y los anteriores.

Uno de los mas adecuados son las cadenas de Markov.



&

$

%

3. Cadenas de Markov

Procesos estocasticos

Definicion. Propiedad de Markov

(Matriz de) Probabilidades de transicion

Calculos con cadenas de Markov

• Probabilidad de una secuencia de observaciones

• Probabilidad de encontrarse en un estado en tras n

transiciones.

• Probabilidad de todos los estados a cada transiciopn.

Distribuciones estacionarias. Cadenas estacionarias



&

$

%

3.1. Procesos estocasticos o aleatorios

Un proceso estocastico (random process) en tiempo discreto es

una familia (o una sucesion) de variables aleatorias

X0, X1, X2, ... = {Xn}n≥0.

Normalmente estas variables son dependientes, es decir el valor

de una de ellas depende le las restantes a traves de su

distribucion conjunta.

Tıpicamente Xn describe algun fenomeno que evoluciona en el

tiempo (ej. Poblacion) o el espacio.

Mas: http://en.wikipedia.org/wiki/Stochastic_process



&

$

%

Ejemplos de procesos estocasticos

Proceso de Bernouilli: Xi ∼ b(1, p): Repeticiones

independientes de una observacion que puede valer 1 o 0.

Paseo aleatorio (random walk) Sea X0 = 0 y Xi = Xi−1 + Zi,

i ≥ 1, donde Z1, Z2, etc. son variables iid tales que:

P (Zi = −1) = p, P (Zi = 1) = 1 − p. En este caso el futuro

Xn+1, Xn+2, ... tan solo depende del estado actual Xn.

Proceso de Poisson



&

$

%

3.2. Conceptos basicos sobre cadenas de Markov

Las cadenas de Markov son un tipo de proceso estocastico,

{Xj}j≥0, de gran importancia en bioinformatica

Suelen describir procesos discretos que evolucionan en el

tiempo (generaciones) o en el espacio (secuencias biologicas)

En cada instante la cadena visita uno (Si) de un cierto numero

de estados posibles S = {S1, ...., SN}.

Caracterıstica principal: Propiedad de Markov (falta de

memoria): Solo importa el estado actual para predecir el estado

futuro:

P (Xj+1 = kj+1|X0 = k0, X1 = k1, ..., Xj = kj)

= P (Xj+1 = kj+1|Xj = kj).



&

$

%

Figura 1: Una cadena de Markov evoluciona entre un conjunto de

estados. A menudo se indican los estados S1, ..., SN como 1, 2, ..., N

para simplificar la notacion.



&

$

%Figura 2: Las cadenas de Markov tambien pueden describirse medi-

ante maquinas de estados o automatas finitos



&

$

%

Orden de una cadena de Markov

El orden de una cadena de Markov establece el numero de

estados anteriores de los cuales depende la probabilidad de un

estado, en un instante dado del proceso:

Ası, dado S = {S1, ..., SN}, en una cadena de primer orden

tendremos:

P (Xj+1 = kj+1|X0 = k0, X1 = k1, ..., Xj = kj)

= P (Xj+1 = kj+1|Xj = kj),

y en una cadena de orden dos

P (Xj+1 = kj+1|Xj = kj , Xj−1 = kj−1, ..., X0 = k0)

= P (Xj+1 = kj+1|Xj = kj , Xj−1 = kj−1),



&

$

%

Ejemplo: Modelos de cadenas de Markov para el ADN

Los valores que toma un proceso discreto no son necesariamente

numericos, ni el ındice indica necesariamente el tiempo.

En una secuencia de ADN tendremos S = {A,C,G, T} y n la

posicion del nucleotido n en la secuencia, es decir Xi indica el

nucleotido que aparece en la posicion iesima.

Teniendo en cuenta el codigo genetico no parece realista que un

nucleotido sea independiente de sus predecesores.

Una cadena de Markov sobre S puede ser una mejor

aproximacion. Si deseamos tener en cuenta dependencias mas

complejas nos basaremos en cadenas de orden superior a 1.



&

$

%

Matriz de probabilidades de transicion

Dada una cadena de Markov X0, X1, ... sobre un estado de

espacios S, por ejemplo S = {A,C,G, T} podemos agrupar en

una matriz cuadrada todas las probabilidades de transicion de

un estado a otro.

Si aij = P (Xn+1 = j|Xn = i) la matriz de probabilidades de

transicion es:

P =

p11 p12 p13 p14

p21 p22 p23 p24

p31 p32 p33 p34

p41 p42 p43 p44

,

4∑

j=1

pij = 1, i = 1, ..., 4.



&

$

%

Probabilidades de transicion de n pasos

Si indicamos por

Pnij = P (Xn+m = j|Xm = i) ,

el teorema de Chapman-Kolmogorov establece que:

Pnij =

∞∑

k=0

PnikPm

kj .

Asi : P (n+m) = P (n)P (m),

y por induccion: P(n)ij = Pn.



&

$

%

Distribucion inicial de una CM

El estado inicial de una cadena de Markov, X0 suele ser

tambien aleatorio y en general se considera que su valor viene

determinado por una distribucion de probabilidad inicial.

Sea πj = π(j) = P (X0 = Sj), j ∈ S = {S1, ..., SN}

La distribucion de probabilidad inicial suele representarse como

el vector fila:

π = (π(1), ..., π(N)) = (P (X0 = S1), ..., P (X0 = SN )) .



&

$

%

Estado inicial y final en las CM

El estado inicial del sistema suele describirse mediante un

vector de probabilidades iniciales

π = (πi); πi = P (Si), i = 1, ...N

En vez de las probabilidades iniciales podemos definir unos

estados inicial y final que no se corresponden con estados

“reales” sino que son estados silenciosos

• El sistema siempre empieza en el estado inicial,

B = Inicio = 0

πi = P (X1 = Si) = pInicio,i = a0,i

• El sistema siempre acaba en el estado final E = Fin. Este

estado es menos relevante puesto que en general suele

definirse pt,Fin = τ, ∀t ∈ S.



&

$

%Figura 3: Una cadena de Markov con estado inicial y final



&

$

%

Probabilidad de una secuencia de observaciones

Como consecuencia de la propiedad de Markov, la probabilidad

de que una cadena M recorra un “camino” dado, es decir pase

por una determinada sucesion de estados, k1k2...kL es:

P (X1 = k1, X2 = k2, ..., XL = kL|M)

= P (k1, k2, ..., kL)

= P (X1 = k1) · P (X2 = k2|X1 = k1) · . . .

·P (XL = kL|XL−1 = kL−1)

= P1(k1)pk1k2pk2k3

· · · · · pkL−1kL= (indicando ki = i)

= P1(k1)p12p23 · · · · · pL−1L.



&

$

%

Verosimilitud de un modelo de cadena de Markov

De manera recıproca a la formula anterior, la verosimilitud de

un modelo de cadena de markov, M, dada una secuencia de

observaciones k1, ..., kL sera:

L (M |k1, k2, ..., kL) = π(k1)p12p23 · · · · · pL−1L

= π(k1)L−1∏

i

pi−1,i

Como en el caso de los modelos de independencia la

verosimilitud puede utilizarse para puntuar (score una

secuencia (ver ejemplo de las islas CpG, mas adelante).



&

$

%

Otras caracterısticas de las cadenas de Markov

Entre los conceptos interesantes a destacar en el estudio de las

cadenas de Markov cabe destacar

Ecuaciones de Chapmann-Kolmogorov

Probabilidades de transicion de n pasos

Distribucion estacionaria y distribucion lımite de una cadena

de Markov

Clasificacion de los estados de las cadenas de Markov y

Caracterizacion de las CM por sus estados.

Cadenas ergodicas, cadenas reversibles

Cadenas de Markov en tiempo continuo ...



&

$

%

Mas informacion en...

De un curso de bioinformatica en U. Zurich...

http://mathweb.unizh.ch/~dasven/bio02markov.pdf

Un muy buen curso de procesos estocasticos

http://www.stat.sfu.ca/~lockhart/richard/380/00_3/

lectures/08/web.html

Un paseo por la Wikipedia, enciclopedia gratis en internet

http://en.wikipedia.org/wiki/Markov_chain

El juego de la escalera, como motivacion. Ejemplos en R!

http://wiener.math.csi.cuny.edu/st/Projects/

ChutesAndLadders/ChutesAndLadders.pdf



&

$

%

4. Estimacion en las cadenas de Markov

Sea x una secuencia de observaciones de una cadena finita de

Markov, con K estados, y con matriz de probabilidades de

transicion P = pij , i, j = 1..K,

x = x0x1...xL

La verosimilitud del modelo es:

L(M|x) =n∏

i=1

pji−1j =K∏

i=1

K∏

j=1

pnij

ij .



&

$

%

Calculos directos llevan al siguiente estimador maximo

verosımil de pij :

pij =nij

n,

siendo nij el numero de transiciones entre los estados i, j y n el

total de transiciones.



&

$

%

5. Aplicacion: Las islas CpG

El par de nucleotidos CG es relativamente raro en las

secuencias de DNA excepto en ciertos fragmentos,

biologicamente significantes, de varios centenares de

nucleotidos de longitud, en que son muy abundantes.

Dichos fragmentos se denominan islas CpG, y en contraste el

resto del genoma es el oceano.

Podemos observar la secuencia de dinucleotidos pero no

sabemos a que tipo de region pertence cada fragmento

O = AACATA︸︷︷︸No CpG?

CGTCCG︸︷︷︸Isla CpG?

ATACATA︸︷︷︸No CpG?

Una cuestion relevante: Dada un fragmento de una secuencia

genomica, ¿como podemos decidir si proviene o no de una isla

CpG?



&

$

%

5.1. Modelizacion de las islas CpG

Las islas CpG (los oceanos) presentan una peculiaridad

1. Hay mas Cs y Gs en las islas (mas As y Ts en los oceanos)

2. La probabilidad de hallar una G despues de un nucleotido

sera mayor en una isla (menor en un oceano) si en la

posicion actual hay una C que si no la hay

Un modelo de Markov de orden 1 puede capturar estas

relaciones de dependencia.

Las probabilidades de cada transicion van a depender de si

estamos en una isla CpG o no −→ Construimos un modelo de

markov para cada caso



&

$

%

Figura 4: Modelo de Markov para las islas CpG



&

$

%

5.2. Estimacion de las probabilidades

De bancos de datos genomicos podemos extraer secuencias

pertenecientes a islas CpG (grupo “+”) y pertenecientes al

oceanos (grupo “-”).

Las probabilidades de transicion se estimaran mediante

maxima verosimilitud: Si C∗st representa el numero de veces que

el nucleotido t sigue al s en una secuencia, siendo ∗ ∈ {+,−} y

s, t ∈ {A,C,G, T} las probabilidades de transicion estimadas

son:

a+st =

C+st∑

k C+sk

, a−st =

C−st∑

k C−sk

.



&

$

%

Figura 5: Estimacion de las probabilidades en cada modelo. Al

basarse en una secuencia corta aparece un cero en la transicion

C → G. Un enfoque bayesiano con pseudocontajes remediarıa este

problema!



&

$

%

5.3. Discriminacion entre secuencias

Supongamos que queremos puntuar una secuencia para decidir

si corresponde a una isla CpG o a un oceano

Disponemos de 2 modelos

• El modelo “+” de las islas CpG

• El modelo “-” de los oceanos.

La idea subyacente tras el sistema de puntuaciones es:

• Si la secuencia pertenece a una isla CpG tendra una

probabilidad mas alta sobre el modelo “+” que sobre el “-”

• Si la secuencia no es de una isla CpG la probabilidad que le

asignara el modelo “-” sera mayor



&

$

%

5.4. Puntuacion de una secuencia

En vez de multiplicar probabilidades, sumaremos los logaritmos

de las razones de probabilidades segun cada modelo y

calcularemos un log-odds ratio

S(O) = log

(P (O|+)

P (O|−)

)

= log

(∏L

i=1 a+oi−1oi∏L

i=1 a−oi−1oi

)

=L∑

i=1

log

(a+

oi−1oi

a−oi−1oi

)=

L∑

i=1

βoi−1oi

La decision de si la secuencia es o no una isla CpG

dependera de que los valores sean mas o menos altos



&

$

%

Figura 6: Matriz de puntuaciones basada en los modelos del ejemplo

anterior. Al basarse en secuencias cortas la transicion C → G se

puntuara como un 1. Deberıan tomarse mas valores para mejorar la

estimacion o bien adoptar un enfoque bayesiano con pseudocontajes!



&

$

%

6. Un ejemplo numerico

De un conjunto de secuencias de ADN humano se extrajeron 48

islas CpG potenciales.

Se derivaron 2 modelos de Markov, uno para las islas CpG y

otro para los oceanos

A partir de ellas se construyo la tabla de razones de

verosimilitud βoi−1oi

Esta tabla se utilizo para puntuar todas las secuencias.

La figura siguiente muestra como las islas CpG obtienen

efectivamente una mayor puntuacion.



&

$

%Figura 7: Histograma de las puntuaciones normalizadas para la lon-

gitud. La trama oscura corresponde a islas CpG y la clara a oceanos



&

$

%

7. Bibliografıa y enlaces

Durbin Richard et al. (1998) Biological sequence analysis.

Cambridge University Press

Koski, Timo. (2002) Hidden Markov Models in Bioinformatics.

Kluwer

Rabiner, L.R. (1989) A tutorial on hidden markov models and

selected applications in speech recognition.Proceedings of the

IEEE 77:257-286

Un enlace a materiales y enlaces sobre MMO

http://www.bio.ub.es/estad/personal/alexsanchez/

personal/materials/HMM_Links.htm


esquema del tema - universitat de barcelona · cadenas de markov en biologia computacional alex s...

Documents