esquema del tema - universitat de barcelona · cadenas de markov en biologia computacional alex s...
TRANSCRIPT
'
&
$
%
Cadenas de Markov y aplicaciones
en biologıa computacional
Alex Sanchez
Departament d’Estadıstica U.B.
Estadıstica i Bioinformatica
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Esquema del tema
Modelos de secuencias biologicas
Cadenas de Markov
• Definicion y conceptos basicos
• Ecuaciones de Chapman Kolmogorov
• Distribuciones estacionarias e invariantes
Inferencia con cadenas de Markov
• Verosimilitud
• Estimacion (MV) de los parametros.
Aplicaciones de los MM en biocomputacion
• Islas CpG
• Modelos de evolucion molecular
• Matrices de sustitucion
Departament d’Estadıstica U.B. 1
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
1. Modelos probabilısticos de secuencias
biologicas
Deseamos responder cuestiones del tipo de:
• Reconocimiento de patrones: ¿Esta secuencia es un
sitio de “splice”?
• Discriminacion entre modelos: ¿A que se parece mas
esta proteına, a una hemoglobina o a una mioglobina?
• Busqueda en bases de datos: ¿Que secuencias, si hay
alguna, de SWISS PROT son parecidas a una dada?
Los modelos probabilısticos de secuencias biologicas resultan
adecuados para hacerlo
Departament d’Estadıstica U.B. 2
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Puntuacion de secuencias
La idea basica en muchos metodos, es puntuar las secuencias
con la probabilidad que les asigna un modelo M dado,
S(x) = P (x|M),∑
∀x
P (x|M) = 1.
Esto permite tambien establecer una medida de cuan verosimil
resulta un modelo, a la vista de una secuencia:
L(M|x) ∝ P (x|M)
Departament d’Estadıstica U.B. 3
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Podemos reformular las cuestiones anteriores en terminos de
probabilidad o verosimilitud. Por ejemplo:
La cuestion sobre reconocimiento de patrones:
• ¿Esta secuencia es un sitio de “splice”?
• equivale a preguntarse si: ¿Es P (x|Msplice) suficientemente
alta para decidir que sı lo es?
El problema de discriminacion entre modelos:
• ¿A que se parece mas esta proteına, a una hemoglobina o a
una mioglobina?
• Sera equivalente a ¿Que es relativamente mayor
L(Mmiog|x) o L(Mhemo|x)?
Departament d’Estadıstica U.B. 4
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Mas sobre modelos probabilısticos ...
Stochastic Modeling Techniques: Understanding and using
hidden Markov models
• 2.1. What is a model y
• 2.2. Bayesian statistics When does a sequence fit a model?
http://www.cse.ucsc.edu/research/compbio/sam.html
Departament d’Estadıstica U.B. 5
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Tipos de modelos para secuencias
Los tipos mas utilizados de modelos son:
Secuencias de sucesos independientes
Modelos de Cadenas de Markov
Modelos Ocultos de Markov
Departament d’Estadıstica U.B. 6
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
2. Modelos de independencia
Podemos imaginar que una secuencia de nucleotidos (AN) o
aminoacidos (proteınas) se origina a partir de lanzamientos
independientes de una moneda de 4 (AN) o 20 caras (AA)
• Por ejemplo en los AN podemos obtener A, con
probabilidad PA, C con probabilidad PC , G con
probabilidad PG y T con probabilidad 1 − PA − PC − PG .
• Observamos la secuencia de resultados O = GATTACA.
Podemos modelizar esta situacion suponiendo que tenemos
realizaciones independientes de una variable aleatoria que toma
valores en {0, 1}4 segun cada nucleotido sea A,C,G, T con
probabilidades PA, PC , PG, PT
Departament d’Estadıstica U.B. 7
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
2.1. Probabilidad y verosimilitud
Bajo el modelo de independencia (M) la probabilidad de
observar la secuencia O sera:
P (O|M) = PG · PA · PT · PT · PA · PC · PA = P 3A · P 1
C · P 1G · P 2
T
Dada una secuencia formada por nA, As, nC Cs, etc la
verosimilitud del modelo M sera:
L(M |O) = P nA
A · PnC
C · PnG
G · PnT
T .
Departament d’Estadıstica U.B. 8
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Estimacion de los parametros
La estimacion maximo verosimil de los parametros resulta
(confırmelo):
PMLA =
nA
n, PML
C =nC
n, PML
G =nG
n, PML
T =nT
n.
Una estimacion bayesiana, tomando como prior una
distribucion de Dirichlet,
Dir(αqA, ..., αqT ),∑
qi = 1
y como estimador la media de la distribucion posterior(MPE)
da un resultado similar:
PMPEi =
ni + αqi
n + α, i = A,C,G, T.
salvo por los pseudocontajes αqi, que a veces se interpretan
como una pequena perturbacion de la muestra para evitar
estimaciones iguales a cero.
Departament d’Estadıstica U.B. 9
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Los modelos de independencia resultan utiles como modelo nulo
pero suponer que hay independencia entre los sucesos suele ser
una simplificacion excesiva.
• Correlaciones entre los nucleotidos debido a su pertenencia
a uno u otro codon,
• Correlaciones entre codones por la presencia de senales,
• Correlaciones entre las secuencias de AA debido a los
plegamientos de las proteinas...
En estos casos resultan adecuados modelos capaces de capturar
las relaciones de dependencia entre un suceso y los anteriores.
Uno de los mas adecuados son las cadenas de Markov.
Departament d’Estadıstica U.B. 10
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
3. Cadenas de Markov
Procesos estocasticos
Definicion. Propiedad de Markov
(Matriz de) Probabilidades de transicion
Calculos con cadenas de Markov
• Probabilidad de una secuencia de observaciones
• Probabilidad de encontrarse en un estado en tras n
transiciones.
• Probabilidad de todos los estados a cada transiciopn.
Distribuciones estacionarias. Cadenas estacionarias
Departament d’Estadıstica U.B. 11
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
3.1. Procesos estocasticos o aleatorios
Un proceso estocastico (random process) en tiempo discreto es
una familia (o una sucesion) de variables aleatorias
X0, X1, X2, ... = {Xn}n≥0.
Normalmente estas variables son dependientes, es decir el valor
de una de ellas depende le las restantes a traves de su
distribucion conjunta.
Tıpicamente Xn describe algun fenomeno que evoluciona en el
tiempo (ej. Poblacion) o el espacio.
Mas: http://en.wikipedia.org/wiki/Stochastic_process
Departament d’Estadıstica U.B. 12
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Ejemplos de procesos estocasticos
Proceso de Bernouilli: Xi ∼ b(1, p): Repeticiones
independientes de una observacion que puede valer 1 o 0.
Paseo aleatorio (random walk) Sea X0 = 0 y Xi = Xi−1 + Zi,
i ≥ 1, donde Z1, Z2, etc. son variables iid tales que:
P (Zi = −1) = p, P (Zi = 1) = 1 − p. En este caso el futuro
Xn+1, Xn+2, ... tan solo depende del estado actual Xn.
Proceso de Poisson
Departament d’Estadıstica U.B. 13
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
3.2. Conceptos basicos sobre cadenas de Markov
Las cadenas de Markov son un tipo de proceso estocastico,
{Xj}j≥0, de gran importancia en bioinformatica
Suelen describir procesos discretos que evolucionan en el
tiempo (generaciones) o en el espacio (secuencias biologicas)
En cada instante la cadena visita uno (Si) de un cierto numero
de estados posibles S = {S1, ...., SN}.
Caracterıstica principal: Propiedad de Markov (falta de
memoria): Solo importa el estado actual para predecir el estado
futuro:
P (Xj+1 = kj+1|X0 = k0, X1 = k1, ..., Xj = kj)
= P (Xj+1 = kj+1|Xj = kj).
Departament d’Estadıstica U.B. 14
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Figura 1: Una cadena de Markov evoluciona entre un conjunto de
estados. A menudo se indican los estados S1, ..., SN como 1, 2, ..., N
para simplificar la notacion.
Departament d’Estadıstica U.B. 15
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%Figura 2: Las cadenas de Markov tambien pueden describirse medi-
ante maquinas de estados o automatas finitos
Departament d’Estadıstica U.B. 16
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Orden de una cadena de Markov
El orden de una cadena de Markov establece el numero de
estados anteriores de los cuales depende la probabilidad de un
estado, en un instante dado del proceso:
Ası, dado S = {S1, ..., SN}, en una cadena de primer orden
tendremos:
P (Xj+1 = kj+1|X0 = k0, X1 = k1, ..., Xj = kj)
= P (Xj+1 = kj+1|Xj = kj),
y en una cadena de orden dos
P (Xj+1 = kj+1|Xj = kj , Xj−1 = kj−1, ..., X0 = k0)
= P (Xj+1 = kj+1|Xj = kj , Xj−1 = kj−1),
Departament d’Estadıstica U.B. 17
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Ejemplo: Modelos de cadenas de Markov para el ADN
Los valores que toma un proceso discreto no son necesariamente
numericos, ni el ındice indica necesariamente el tiempo.
En una secuencia de ADN tendremos S = {A,C,G, T} y n la
posicion del nucleotido n en la secuencia, es decir Xi indica el
nucleotido que aparece en la posicion iesima.
Teniendo en cuenta el codigo genetico no parece realista que un
nucleotido sea independiente de sus predecesores.
Una cadena de Markov sobre S puede ser una mejor
aproximacion. Si deseamos tener en cuenta dependencias mas
complejas nos basaremos en cadenas de orden superior a 1.
Departament d’Estadıstica U.B. 18
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Matriz de probabilidades de transicion
Dada una cadena de Markov X0, X1, ... sobre un estado de
espacios S, por ejemplo S = {A,C,G, T} podemos agrupar en
una matriz cuadrada todas las probabilidades de transicion de
un estado a otro.
Si aij = P (Xn+1 = j|Xn = i) la matriz de probabilidades de
transicion es:
P =
p11 p12 p13 p14
p21 p22 p23 p24
p31 p32 p33 p34
p41 p42 p43 p44
,
4∑
j=1
pij = 1, i = 1, ..., 4.
Departament d’Estadıstica U.B. 19
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Probabilidades de transicion de n pasos
Si indicamos por
Pnij = P (Xn+m = j|Xm = i) ,
el teorema de Chapman-Kolmogorov establece que:
Pnij =
∞∑
k=0
PnikPm
kj .
Asi : P (n+m) = P (n)P (m),
y por induccion: P(n)ij = Pn.
Departament d’Estadıstica U.B. 20
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Distribucion inicial de una CM
El estado inicial de una cadena de Markov, X0 suele ser
tambien aleatorio y en general se considera que su valor viene
determinado por una distribucion de probabilidad inicial.
Sea πj = π(j) = P (X0 = Sj), j ∈ S = {S1, ..., SN}
La distribucion de probabilidad inicial suele representarse como
el vector fila:
π = (π(1), ..., π(N)) = (P (X0 = S1), ..., P (X0 = SN )) .
Departament d’Estadıstica U.B. 21
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Estado inicial y final en las CM
El estado inicial del sistema suele describirse mediante un
vector de probabilidades iniciales
π = (πi); πi = P (Si), i = 1, ...N
En vez de las probabilidades iniciales podemos definir unos
estados inicial y final que no se corresponden con estados
“reales” sino que son estados silenciosos
• El sistema siempre empieza en el estado inicial,
B = Inicio = 0
πi = P (X1 = Si) = pInicio,i = a0,i
• El sistema siempre acaba en el estado final E = Fin. Este
estado es menos relevante puesto que en general suele
definirse pt,Fin = τ, ∀t ∈ S.
Departament d’Estadıstica U.B. 22
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%Figura 3: Una cadena de Markov con estado inicial y final
Departament d’Estadıstica U.B. 23
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Probabilidad de una secuencia de observaciones
Como consecuencia de la propiedad de Markov, la probabilidad
de que una cadena M recorra un “camino” dado, es decir pase
por una determinada sucesion de estados, k1k2...kL es:
P (X1 = k1, X2 = k2, ..., XL = kL|M)
= P (k1, k2, ..., kL)
= P (X1 = k1) · P (X2 = k2|X1 = k1) · . . .
·P (XL = kL|XL−1 = kL−1)
= P1(k1)pk1k2pk2k3
· · · · · pkL−1kL= (indicando ki = i)
= P1(k1)p12p23 · · · · · pL−1L.
Departament d’Estadıstica U.B. 24
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Verosimilitud de un modelo de cadena de Markov
De manera recıproca a la formula anterior, la verosimilitud de
un modelo de cadena de markov, M, dada una secuencia de
observaciones k1, ..., kL sera:
L (M |k1, k2, ..., kL) = π(k1)p12p23 · · · · · pL−1L
= π(k1)L−1∏
i
pi−1,i
Como en el caso de los modelos de independencia la
verosimilitud puede utilizarse para puntuar (score una
secuencia (ver ejemplo de las islas CpG, mas adelante).
Departament d’Estadıstica U.B. 25
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Otras caracterısticas de las cadenas de Markov
Entre los conceptos interesantes a destacar en el estudio de las
cadenas de Markov cabe destacar
Ecuaciones de Chapmann-Kolmogorov
Probabilidades de transicion de n pasos
Distribucion estacionaria y distribucion lımite de una cadena
de Markov
Clasificacion de los estados de las cadenas de Markov y
Caracterizacion de las CM por sus estados.
Cadenas ergodicas, cadenas reversibles
Cadenas de Markov en tiempo continuo ...
Departament d’Estadıstica U.B. 26
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Mas informacion en...
De un curso de bioinformatica en U. Zurich...
http://mathweb.unizh.ch/~dasven/bio02markov.pdf
Un muy buen curso de procesos estocasticos
http://www.stat.sfu.ca/~lockhart/richard/380/00_3/
lectures/08/web.html
Un paseo por la Wikipedia, enciclopedia gratis en internet
http://en.wikipedia.org/wiki/Markov_chain
El juego de la escalera, como motivacion. Ejemplos en R!
http://wiener.math.csi.cuny.edu/st/Projects/
ChutesAndLadders/ChutesAndLadders.pdf
Departament d’Estadıstica U.B. 27
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
4. Estimacion en las cadenas de Markov
Sea x una secuencia de observaciones de una cadena finita de
Markov, con K estados, y con matriz de probabilidades de
transicion P = pij , i, j = 1..K,
x = x0x1...xL
La verosimilitud del modelo es:
L(M|x) =n∏
i=1
pji−1j =K∏
i=1
K∏
j=1
pnij
ij .
Departament d’Estadıstica U.B. 28
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Calculos directos llevan al siguiente estimador maximo
verosımil de pij :
pij =nij
n,
siendo nij el numero de transiciones entre los estados i, j y n el
total de transiciones.
Departament d’Estadıstica U.B. 29
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
5. Aplicacion: Las islas CpG
El par de nucleotidos CG es relativamente raro en las
secuencias de DNA excepto en ciertos fragmentos,
biologicamente significantes, de varios centenares de
nucleotidos de longitud, en que son muy abundantes.
Dichos fragmentos se denominan islas CpG, y en contraste el
resto del genoma es el oceano.
Podemos observar la secuencia de dinucleotidos pero no
sabemos a que tipo de region pertence cada fragmento
O = AACATA︸ ︷︷ ︸No CpG?
CGTCCG︸ ︷︷ ︸Isla CpG?
ATACATA︸ ︷︷ ︸No CpG?
Una cuestion relevante: Dada un fragmento de una secuencia
genomica, ¿como podemos decidir si proviene o no de una isla
CpG?
Departament d’Estadıstica U.B. 30
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
5.1. Modelizacion de las islas CpG
Las islas CpG (los oceanos) presentan una peculiaridad
1. Hay mas Cs y Gs en las islas (mas As y Ts en los oceanos)
2. La probabilidad de hallar una G despues de un nucleotido
sera mayor en una isla (menor en un oceano) si en la
posicion actual hay una C que si no la hay
Un modelo de Markov de orden 1 puede capturar estas
relaciones de dependencia.
Las probabilidades de cada transicion van a depender de si
estamos en una isla CpG o no −→ Construimos un modelo de
markov para cada caso
Departament d’Estadıstica U.B. 31
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Figura 4: Modelo de Markov para las islas CpG
Departament d’Estadıstica U.B. 32
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
5.2. Estimacion de las probabilidades
De bancos de datos genomicos podemos extraer secuencias
pertenecientes a islas CpG (grupo “+”) y pertenecientes al
oceanos (grupo “-”).
Las probabilidades de transicion se estimaran mediante
maxima verosimilitud: Si C∗st representa el numero de veces que
el nucleotido t sigue al s en una secuencia, siendo ∗ ∈ {+,−} y
s, t ∈ {A,C,G, T} las probabilidades de transicion estimadas
son:
a+st =
C+st∑
k C+sk
, a−st =
C−st∑
k C−sk
.
Departament d’Estadıstica U.B. 33
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Figura 5: Estimacion de las probabilidades en cada modelo. Al
basarse en una secuencia corta aparece un cero en la transicion
C → G. Un enfoque bayesiano con pseudocontajes remediarıa este
problema!
Departament d’Estadıstica U.B. 34
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
5.3. Discriminacion entre secuencias
Supongamos que queremos puntuar una secuencia para decidir
si corresponde a una isla CpG o a un oceano
Disponemos de 2 modelos
• El modelo “+” de las islas CpG
• El modelo “-” de los oceanos.
La idea subyacente tras el sistema de puntuaciones es:
• Si la secuencia pertenece a una isla CpG tendra una
probabilidad mas alta sobre el modelo “+” que sobre el “-”
• Si la secuencia no es de una isla CpG la probabilidad que le
asignara el modelo “-” sera mayor
Departament d’Estadıstica U.B. 35
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
5.4. Puntuacion de una secuencia
En vez de multiplicar probabilidades, sumaremos los logaritmos
de las razones de probabilidades segun cada modelo y
calcularemos un log-odds ratio
S(O) = log
(P (O|+)
P (O|−)
)
= log
(∏L
i=1 a+oi−1oi∏L
i=1 a−oi−1oi
)
=L∑
i=1
log
(a+
oi−1oi
a−oi−1oi
)=
L∑
i=1
βoi−1oi
La decision de si la secuencia es o no una isla CpG
dependera de que los valores sean mas o menos altos
Departament d’Estadıstica U.B. 36
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
Figura 6: Matriz de puntuaciones basada en los modelos del ejemplo
anterior. Al basarse en secuencias cortas la transicion C → G se
puntuara como un 1. Deberıan tomarse mas valores para mejorar la
estimacion o bien adoptar un enfoque bayesiano con pseudocontajes!
Departament d’Estadıstica U.B. 37
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
6. Un ejemplo numerico
De un conjunto de secuencias de ADN humano se extrajeron 48
islas CpG potenciales.
Se derivaron 2 modelos de Markov, uno para las islas CpG y
otro para los oceanos
A partir de ellas se construyo la tabla de razones de
verosimilitud βoi−1oi
Esta tabla se utilizo para puntuar todas las secuencias.
La figura siguiente muestra como las islas CpG obtienen
efectivamente una mayor puntuacion.
Departament d’Estadıstica U.B. 38
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%Figura 7: Histograma de las puntuaciones normalizadas para la lon-
gitud. La trama oscura corresponde a islas CpG y la clara a oceanos
Departament d’Estadıstica U.B. 39
Cadenas de Markov en Biologia Computacional Alex Sanchez'
&
$
%
7. Bibliografıa y enlaces
Durbin Richard et al. (1998) Biological sequence analysis.
Cambridge University Press
Koski, Timo. (2002) Hidden Markov Models in Bioinformatics.
Kluwer
Rabiner, L.R. (1989) A tutorial on hidden markov models and
selected applications in speech recognition.Proceedings of the
IEEE 77:257-286
Un enlace a materiales y enlaces sobre MMO
http://www.bio.ub.es/estad/personal/alexsanchez/
personal/materials/HMM_Links.htm
Departament d’Estadıstica U.B. 40