colored de bruijn graphs

112
Colored De Bruijn Graphs Marcos Castro

Upload: marcos-castro

Post on 16-Apr-2017

221 views

Category:

Education


0 download

TRANSCRIPT

Page 1: Colored de Bruijn Graphs

Colored De Bruijn Graphs

Marcos Castro

Page 2: Colored de Bruijn Graphs

De novo assembly and genotyping of variants using colored de Bruijn Graphs1

Marcos Castro
Genotipagem é o processo pelo qual identificamos pequenas regiões do DNA denominadas marcadores que variam de indivíduo para indivíduo.
Page 3: Colored de Bruijn Graphs

“Variantes genéticas e HTS

Marcos Castro
A descoberta de variantes genéticas tem sido transformadas pelo desenvolvimento de tecnologias de sequenciamento de alto rendimento.
Page 4: Colored de Bruijn Graphs

“Abordagem tradicional:

mapear os reads para um genoma de referência.

Marcos Castro
Identifica posições onde a amostra contém variantes. Poderoso no estudo de SNP's, pequenos indel's. Possui limitações.
Page 5: Colored de Bruijn Graphs

“Limitação 1: a amostra pode conter

sequência faltante.

Page 6: Colored de Bruijn Graphs

“Limitação 2: sequências referências

incompletas.

Page 7: Colored de Bruijn Graphs

“Limitação 3: reads de regiões faltantes frequentemente mapeiam para regiões parálogas levando a falsos variant calls.

Marcos Castro
genes parálogos partilham de um ancestral comum, mas tem funções distintas.
Page 8: Colored de Bruijn Graphs

“Limitação 4: amostras em estudo

podem não ter uma referência disponível ou adequada.

Page 9: Colored de Bruijn Graphs

“Limitação 5: os métodos não

determinam a exata localização/tamanho de variantes.

Page 10: Colored de Bruijn Graphs

“Limitação 6: focam em um único tipo de variante, isso pode levar a erros.

Page 11: Colored de Bruijn Graphs

“Algumas limitações podem ser

resolvidas com de novo assembly.

Exemplo: tipo de variante

De novo assembly também possui limitações.

Page 12: Colored de Bruijn Graphs

“Métodos de montagem tem ignorado informação pré-existente de variantes conhecidas ou sequência referência.

Page 13: Colored de Bruijn Graphs

“Objetivo desse artigo: detectar e

caracterizar variações genéticas em um ou mais indivíduos.

Page 14: Colored de Bruijn Graphs

“Os algoritmos propostos fazem uso de

Grafos De Bruijn (DBG).

Acrescentam ao DBG clássico coloração dos nós e arestas por amostras que

estão sendo observadas.

Page 15: Colored de Bruijn Graphs

“Leva em conta informações das

amostras: uma ou mais sequências referências e variantes conhecidas.

Page 16: Colored de Bruijn Graphs

“O método também é capaz de detectar

variação em espéces sem uma referência, combinando informações

através de vários indivíduos para melhorar a acurácia.

Page 17: Colored de Bruijn Graphs

“Nome da aplicação desenvolvida:

Cortex.

Site:http://cortexassembler.sourceforge.net

Page 18: Colored de Bruijn Graphs

“DBG’s representam informação

sobreposta.

Muito utilizados em montagem de genoma. Exemplos: Velvet, Abyss etc.

Page 19: Colored de Bruijn Graphs

“O grafo consiste de um conjunto de nós representando palavras de tamanho K.

Essas palavras são k-mers.

K-mers são substrings!

Page 20: Colored de Bruijn Graphs

“Arestas direcionadas juntam os k-mers.

Page 21: Colored de Bruijn Graphs

“Variações entre genomas geram novos

nós e arestas.

Page 22: Colored de Bruijn Graphs

“Exemplo: ACT, k = 2

K-mers: AC, CT

AC CTACT

nóaresta

Page 23: Colored de Bruijn Graphs

“O grafo pode apresentar estruturas

conhecidas.

Exemplo: bolhas.

Page 24: Colored de Bruijn Graphs

“Bolha:

Page 25: Colored de Bruijn Graphs

“Um DBG colorido generaliza a formulação original para várias

amostras.

A identidade de cada amostra é mantida pela coloração dos nós.

Page 26: Colored de Bruijn Graphs

“Alguns algoritmos para descoberta de

variantes e genotipagem:

1) Bubble-calling2) Path divergence

Page 27: Colored de Bruijn Graphs

“Bubble-calling: método mais simples para identificar bolhas em um único

indivíduo diplóide.

Page 28: Colored de Bruijn Graphs

“A abordagem bubble-calling pode ter uma alta taxa de falsos positivos que

pode ser melhorado com a inclusão de um genoma de referência.

Marcos Castro
Pode ser melhorado porque a maioria das estruturas de repetição estarão presentes na referência e qualquer bolha na cor de referência deve ser uma repetição.
Page 29: Colored de Bruijn Graphs

“Esses falsos positivos são causadas

pela dificuldade de separar bolhas de repetição e de variação.

Page 30: Colored de Bruijn Graphs

Descoberta de variante em um único indivíduo diploide.A referência está em vermelho.

Marcos Castro
Polimorfismos verdadeiros geram bolhas que divergem da referência, enquanto estruturas de repetições levam a bolhas observadas também na referência.
Page 31: Colored de Bruijn Graphs

“Resumindo: polimorfismos verdadeiros

geram bolhas que divergem da referência, enquanto que estruturas de

repetição levam a bolhas também observadas na referência.

Page 32: Colored de Bruijn Graphs

“O que temos é um genoma de

referência auxiliando na detecção de variantes.

Page 33: Colored de Bruijn Graphs

“Todos os tipos de variantes podem

induzir bolhas.

Page 34: Colored de Bruijn Graphs

“Para variantes complexas (grandes

deleções, novas inserções, inversões) pode ser difícil gerar um contig limpo.

Marcos Castro
Contig é um conjunto de segmentos de DNA sobrepostos que juntos representam uma região consensus do DNA.
Page 35: Colored de Bruijn Graphs

“PD algorithm pode aumentar

substancialmente a capacidade de detectar varitantes.

Marcos Castro
PD algorithm somente identifica variantes homozigotos.
Page 36: Colored de Bruijn Graphs

“Caso simples: amostras são combinadas numa única cor.

Page 37: Colored de Bruijn Graphs

“Mantendo cores separadas para cada

amostra , tem-se a informação adicional sobre se uma bolha é

induzida por repetições ou erros.

Page 38: Colored de Bruijn Graphs

“Quando é induzida por repetições,

muitas ou todas as amostras apresentam cobertura de ambos os

caminhos na bolha.

Page 39: Colored de Bruijn Graphs

Várias amostras (cada uma com um cor diferente).

Cobertura normal,nenhuma variânciaentre amostras.

Page 40: Colored de Bruijn Graphs

Bolhas de repetição: ambos os lados da bolha estãopresentes em todas as amostras.

Page 41: Colored de Bruijn Graphs

“Portanto, pode ser descoberta variante

mesmo em espécies onde não há nenhuma referência adequada.

Page 42: Colored de Bruijn Graphs

“Tem-se desenvolvidos métodos

estatísticos que permitem a classificação probabilística de

estruturas de bolhas decorrentes de erros, repetições ou variantes.

Page 43: Colored de Bruijn Graphs

“Se tiver um genoma de referência, essa

abordagem pode ajudar a distinguir variantes verdadeiras de erros e

estruturas de repetição.

Page 44: Colored de Bruijn Graphs

“DBG coloridos podem ser usados para genotipar amostras em loci conhecida

mesmo quando a cobertura é insuficiente.

Marcos Castro
loci: locais onde estão localizados determinados genes ou marcadores genéticos.
Page 45: Colored de Bruijn Graphs

Em azul temos a cobertura (insuficiente).Os alelos estão em vermelho e verde.

Marcos Castro
alelos ocupa os mesmos loci nos cromossomos. Tem-se a coberturade ambos os alelos para permitir a montagem completa.
Page 46: Colored de Bruijn Graphs

“Foi construído um DBG colorido da

sequência referência, variantes alélicas conhecidas e dados a partir da

amostra.

Page 47: Colored de Bruijn Graphs

“Cortex é um assembler eficiente do

ponto de vista de memória.

Ele constrói e representa um DBG colorido. Realiza variant calling e

genotipagem de dados HTS.

Page 48: Colored de Bruijn Graphs

“Foi utilizada uma eficiente hash table que codifica implicitamente o grafo.

O uso de memória é previamente especificado de acordo com uma

fórmula.

Page 49: Colored de Bruijn Graphs

“Várias operações tem complexidade

linear ou melhor.

Page 50: Colored de Bruijn Graphs

“K-mers e seus complementos reversos

são armazenados em um único nó.

Page 51: Colored de Bruijn Graphs

“Valor da hash table é um array de

inteiros representando a cobertura de cada cor.

Page 52: Colored de Bruijn Graphs

“Para cada k-mer, uma flag binária é usada para cada nucleotídeo para

verificar se uma determinada aresta está presente.

Page 53: Colored de Bruijn Graphs

“É o único assembler capaz de lidar com

vários eucariotos simultaneamente.

Exemplo: 10 seres humanos utiliza menos de 256GB de RAM.

Page 54: Colored de Bruijn Graphs

“Exemplo de K: 75

(teste com dados de humanos)

Page 55: Colored de Bruijn Graphs

“O aumento do K (tamanho do k-mer)

aumenta a probabilidade de um k-mer conter um erro.

Page 56: Colored de Bruijn Graphs

“O tamanho do k-mer maximiza a sensibilidade do BC algorithm.

Page 57: Colored de Bruijn Graphs

“Exemplo: com cobertura 50x, K = 65 e 100bp reads, foi identificado 86% dos

SNPs de 92% possíveis.

Page 58: Colored de Bruijn Graphs

“O Cortex se utiliza de DBG colorido

para representar informações de várias fontes e abordagens estatísticas para detectar variantes de diferentes tipos.

Page 59: Colored de Bruijn Graphs

“Um implementação eficiente do DBG colorido permite a utilização de dados

de várias amostras bem como sequências de referências e variantes

conhecidas.

Todos são incluídos numa única estrutura de grafo. A identidade da amostra é preservada com o uso de

cores.

Page 60: Colored de Bruijn Graphs

“Essa abordagem permite a análise

simultânea de vários genomas.

Isso pode ser poderoso para detectar variantes precisas sem qualquer necessidade de um genoma de

referência.

Page 61: Colored de Bruijn Graphs

“É possível a análise HTS de variações

genéticas em qualquer espécie.

Page 62: Colored de Bruijn Graphs

“A abordagem também possui

limitações.

Page 63: Colored de Bruijn Graphs

“Limitação 1: não foi usada informação read-pair para melhorar a montagem

local.

Page 64: Colored de Bruijn Graphs

“Limitação 2: explosão do grafo quando

mais indivíduos são incluídos.

Page 65: Colored de Bruijn Graphs

“Limitação 3: aumenta necessidade de

correção de erro quando o k-mer aumenta.

Page 66: Colored de Bruijn Graphs

Succint Colored de Bruijn Graphs2

Page 67: Colored de Bruijn Graphs

“DBG colorido foi introduzido em 2012.

Objetivo: detectar e genotipar variantes genéticas simples e complexas em um

indivíduo ou população.

Page 68: Colored de Bruijn Graphs

“Relembrando o DBG clássico:

1) Conjunto de strings (sequence reads)

2) Vértice para cada (k-1)-mer.3) Aresta para cada k-mer com (k-1)-

mer prefixo e (k-1)-mer sufixo.

Page 69: Colored de Bruijn Graphs

“Um contig é um caminho sem

ramificação.

Page 70: Colored de Bruijn Graphs

“A aresta em um DBG colorido é o

mesmo do DBG clássico.

Page 71: Colored de Bruijn Graphs

“A diferença: cada vértice ((k-1)-mer) e aresta (k-mer) estão associados a uma

lista de cores correspondendo as amostras.

Page 72: Colored de Bruijn Graphs

“Dado um conjunto de n amostras,

existe um conjunto C de n cores: c[1], c[2], c[3], …, c[n] onde c[i] corresponde a amostra i e todos os k-mers e (k-1)-mers que estão contidos na amostra i

são coloridos com c[i].

Page 73: Colored de Bruijn Graphs

“Uma bolha no grafo corresponde a um ciclo direcionado e é considerada um

indicativo de variação biológica.

Page 74: Colored de Bruijn Graphs

“Essas cores permitem que não perder o

controle dos indivíduos dos quais os kmers foram originados.

Page 75: Colored de Bruijn Graphs

“Relembrando: o Cortex utiliza DBG

colorido para montar vários genomas simultaneamente, por isso é importante

o uso das cores para manter um controle.

Page 76: Colored de Bruijn Graphs

“Nesse artigo foi desenvolvida uma estrutura de dados eficiente para o

armazenamento e uso do DBG colorido.

Page 77: Colored de Bruijn Graphs

“Comparado ao Cortex, essa estrutura

reduz dramaticamente a quantidade de memória para armazenar e utilizar o DBG colorido com alguma penalidade

de execução.

Page 78: Colored de Bruijn Graphs

“Método VARI - 2016

Page 79: Colored de Bruijn Graphs

Datasets, números de cores, k-mers etc.foram removidos para eu poder colocar no slide...

Page 80: Colored de Bruijn Graphs

“Resumindo: Cortex ganha em tempo de execução e o VARI ganha em eficiência

de memória.

Page 81: Colored de Bruijn Graphs

Voltando ao Cortex...3

Page 82: Colored de Bruijn Graphs

“A detecção de variantes genéticas

entre amostras quando não há uma sequência referência introduz desafios.

Page 83: Colored de Bruijn Graphs

“A acurácia do variant calling pode ser

melhorada adicionando uma sequência referência.

Page 84: Colored de Bruijn Graphs

“Existem várias abordagens para o variant calling: bubble calling, path

divergence, multiple-sample analysis, genotyping.

Page 85: Colored de Bruijn Graphs

“Algoritmo Bubble Calling

Page 86: Colored de Bruijn Graphs

“Lembrando:

1) Bolhas podem ser induzidas por variantes, repetições ou erros de

sequenciamento.2) Variantes podem ser separadas de

repetições por inclusão da referência.

Page 87: Colored de Bruijn Graphs

“Alguns conceitos importantes para a

compreensão do algoritmo...

Page 88: Colored de Bruijn Graphs

“1) Nó: representa um k-mer (string de tamanho K restrita ao alfabeto A, C, T,

G).

Page 89: Colored de Bruijn Graphs

“2) Supernode: caminho de

comprimento máximo com restrição que somente o primeiro/último nós do

caminho podem ter grau de entrada/saída != 1.

Page 90: Colored de Bruijn Graphs

“3) Bubble: é um par de supernodes que

tem os mesmos nós de início e fim.

Page 91: Colored de Bruijn Graphs

“4) Branch: cada um dos supernodes

constituindo uma bolha.

Page 92: Colored de Bruijn Graphs

“5) Tip: um pequeno caminho que

termina em um nó com grau de saída 0.

Page 93: Colored de Bruijn Graphs

“5) Confounded: uma variante que se

sobrepõem com outras partes do genoma (ou com ela própria)

impedindo que se forma uma bolha limpa.

Page 94: Colored de Bruijn Graphs

“O algoritmo Bubble Caller foi implementado como um percurso de

uma hash table.

O tempo de acesso numa hash é constante, portanto, o caminho tem um

custo proporcional ao tamanho da tabela.

Page 95: Colored de Bruijn Graphs

Page 96: Colored de Bruijn Graphs

“n é um nó do grafo de bruijn

Page 97: Colored de Bruijn Graphs

“G é o grafo de bruijn

Page 98: Colored de Bruijn Graphs

“todo o grafo é coberto

Page 99: Colored de Bruijn Graphs

“se estamos diante de uma

nova bifurcação...

Page 100: Colored de Bruijn Graphs

“marca o nó como visitado

Page 101: Colored de Bruijn Graphs

“obtém as arestas de saída

Page 102: Colored de Bruijn Graphs

“obtém os supernodes

Page 103: Colored de Bruijn Graphs

“marca os supernodes

como visitados

Page 104: Colored de Bruijn Graphs

“se os dois supernodes seencontram no mesmo nóe na mesma orientação,então temos uma bolha

Page 105: Colored de Bruijn Graphs

“Path Divergence Caller Algorithm

Page 106: Colored de Bruijn Graphs

Vermelho: alelo de referência.Azul: o indivíduo

Page 107: Colored de Bruijn Graphs

Mesmo quando não se forma uma bolha limpa, pode-se descobrir variantes através da divergência

do caminho de referência.

Page 108: Colored de Bruijn Graphs

Ao encontrar um breakpoint (verde), pega-se o contigmais longo da amostra

(exemplo: caminho até o próximo cruzamento).

Page 109: Colored de Bruijn Graphs

O azul pontilhado é uma sequência de repetição dentrodo alelo de referência presente em outro local

dentro do genoma da amostra.

o algoritmonão é afetado

Page 110: Colored de Bruijn Graphs

“Algoritmo de Genotipagem

Tem-se um grafo com uma cor para cada alelo conhecido, uma cor para o genoma de referência e uma cor para

amostra.

Page 111: Colored de Bruijn Graphs

“Algoritmo de Genotipagem

Tem-se um grafo com uma cor para cada alelo conhecido, uma cor para o genoma de referência e uma cor para

amostra.

Page 112: Colored de Bruijn Graphs

Referências

■ http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3272472/■ http://biorxiv.org/content/biorxiv/early/2016/02/18/040071.f

ull.pdf