deleterious snp prediction: be mindful of your training data! flávia araújo [email protected]

27
Deleterious SNP prediction: be mindful of your training data! Flávia Araújo [email protected]

Upload: antonio-lazaro

Post on 07-Apr-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

Deleterious SNP prediction: be mindful of your training data!

Flávia Araú[email protected]

Page 2: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

2

Objetivos

Estudar os três conjuntos de dados mais comumente utilizados para classificar os SNPs como deletérios ou neutros.

Analisando as vantagens e desvantagens de cada conjunto de dados e também recomendando a melhor abordagem para estudos futuros.

Page 3: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

3

Single Nucleotide Polymorphisms

SNPs– Ocorre em uma seqüência de

DNA em apenas um único nucleotídeo.

Ex: A A G C C T A A A G C T T A– 90% dos polimorfismo no DNA

humano é causado por SNP.– Em regiões codificantes ocorrem

pelo menos 4 SNPs por gene, podendo ou não ocorrer a mudança no aminoácido.

Page 4: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

4

Single Nucleotide Polymorphisms

SNPs– Sinônimo: a mudança de base não afeta na

composição da proteína. (mutação silenciosa)– Não Sinônimo: a mudança de base altera a

composição da proteína.Podendo afetar a função da proteína ou contribuir para

uma doença genética.– A importância de se estudar os SNP é a possibilidade

de poder mapear características de interesse entendendo a diversidade dos fenótipos.

Page 5: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

5

Introdução

Dos métodos existentes na literatura utiliza-se uma grande variedade de atributos: estruturais e sequence-based para separar os SNPs deletérios dos neutros.

Desses atributos os estruturais são que fornecem um maior entendimento dos mecanismos, mas esses atributos não estão disponíveis para todos os SNPs.

Page 6: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

6

Introdução

Esses atributos são utilizados para uma grande variedade de métodos de predição usando técnicas de aprendizagem de máquina:– Decision trees, – Support Vector Machine, – Neural Networks, – Bayesian Networks, etc.

Page 7: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

7

Métodos

Árvores de decisão (Decision Trees)

– São modelos preditivos utilizados para classificação dos SNPs.

– Cada nó representa um ponto de decisão no qual o teste é realizado mediante um atributo.

Classe Físico-química

Estrutura Secundária?

hidrofóbico Neutro Polar

Loop Helix Strand

Page 8: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

8

Métodos

Foi utilizado validação cruzada 10-fold para remover qualquer viés que a divisão dos conjuntos de dados em treinamento e teste pudessem apresentar.

Sendo os resultados obtidos com a árvore de decisão exibidos em uma matriz de confusão.

(OE) = [(FP+FN)/(TP+FP+TN+FN)], Onde, TP = true positive, TN = true negative, FP = false positive and FN = false negative.Taxa de falso positivo: [FPR=FP/(TN+FP)] Taxa de falso negativo: [FNR=FN/(TP+FN)].

Page 9: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

9

Atributos

Para permitir as predições de todos os SNPs foram selecionados atributos que não precisam de informações estruturais:

1. Identidade original e mutado do resíduo de aminoácido 2. Classe fisico-química do aminoácido original e mutado (Hydrophobic, Polar,

Encarregado, Glycine) 3. Diferença da hidrofobicidade entre o resíduo original e mutado4. Massa de mudança na mutação5. Predição do sítio de mutação na estrutura secundária: (Loop, Helix, Strand) 6. Predição do sítio de mutação na solvente acessibility: (0 9; enterrado ou

expostos) 7. Scorecons valor: seqüência conservação score mutação no site: (0 1; não

Plenamente conservada) 8. Sítio de mutação Buried charge: (Resíduo é um dos K, R, D, E, H e tem uma

acessibilidade de 0 ou 1) 9. Posição específica pontuação matriz (PSSM) valor de aminoácido substituição 10. Log-odds score substituição do aminoácido.

Page 10: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

10

Conjuntos de dados para a predição de SNP deletérios:

1. Conjunto de dados Mutagêneses– Consiste em um conjunto sistemático de mutação

imparcial do T4 lisozima (1990 mutações / 40% mutações deletérios) e proteína lac repressor (3303 mutações / 38% mutações deletérios).

2. Conjunto de dados Swiss-Prot– Conjunto com single polimorfismos de aminoácidos

(SAP), onde são classificados como: Disease: Quando o polimorfismo é associado a uma doença,

tendo 12911 disease SAP em 1055 proteínas. Polimorfismo: Quando não tem uma doença conhecida

associada, tendo 8302 polimorfismo SAP em 3388 proteínas.

Page 11: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

11

Conjuntos de dados para a predição de SNP deletérios:

3. Conjunto de dados divergentes– Os SAPs neutros são encontrados pela divergência entre

proteínas humanas relacionados com seus mamíferos ortólogos. Assumindo que a variação entre espécies próximas não é deletéria.

– Foram utilizadas proteínas contendo SAPs disease, cada proteína foi procurada no banco NCBI usando BLASTP.

– Todos os resultados de não mamíferos foram descartados e os dados restantes foram processados em dois métodos. Ambos os métodos fizeram o alinhamento das sequências encontradas com as proteínas disease e os aminoácidos diferentes foram anotados, verificando a sequence identity (SI).

– Um dos métodos utilizou todas as seqüências de mamíferos encontrados (neutralAH) e a outra apenas os melhores matchs (neutralBH).

Page 12: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

12

Validação Cruzada e Aleatorização dos dados

Para uma melhor acurácia com as decision trees os dados são balanceados.

Homogeneous cross validation:– Utiliza os mesmos dados para treinamento e teste.– 4000 SAPs amostras são escolhidas aleatoriamente de cada

conjunto de dados 10 vezes (ex.: 4000 deletérios e 4000 neutros). Estes dados são utilizados para realizar a validação cruzada 10-fold.

Heterogeneous cross validation:– Parte dos dados do conjunto de treinamento são do mesmo tipo

de parte dos dados do conjunto de teste.– 4000 SAPs amostras aleatórias escolhidas 10 vezes de cada

conjunto de dados dividido em dois conjuntos: treinamento e teste (ex: 2000 deletérios e 2000 neutros).

Page 13: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

13

Validação cruzada e Aleatorização dos dados

Os dados de mutageneses é uma exceção nesse treinamento devido a baixa quantidade de dados disponíveis:

– Inicialmente os dados foram divididos em duas classes (lac: 1325 deleterious e 1978 neutral; lysozyme: 762 deleterious e 1228 neutral).

– Dessas 762 mutações foram escolhidas aleatoriamente 10 vezes de cada classe. Essas amostras foram então utilizadas para fazer uma validação cruzada homogenea 10-fold.

– Os conjuntos de dados de lac e lysozyme foram unidos para formar um conjunto de dados mutagenese contendo 3048 mutações por amostra (1372 treinamento e152 teste).

Page 14: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

14

Construção da matriz HEAT

Human Expected Amino acids Transitions (HEAT)– Foi construída uma matriz consistindo das taxas

esperadas de substituições de aminoácidos nas proteínas de genes humanos, na ausência de seleção.

– A matriz foi construída similar a Vitkup et al. (2003). Utilizando uma matriz de taxa de substituição de vizinhos-dependentes.

Page 15: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

15

Construção da matriz HEAT

Essa matriz HEAT foi utilizada para calcular as taxas esperadas de todas as substituições de aminoácidos resultantes de mutações de um único nucleotídeo (SNM).

Comparação entre as taxas de cada conjunto de dados com a taxa de substituição esperada

[log (P(datasetSubstitution)/P(HEAT Substitution))].

Page 16: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

16

Matriz HEAT

Page 17: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

17

Resultados

Comparação dos dados: SNM (single nucleotide mutations) podem

dar origem a 150 possíveis substituições de aminoácidos em um códon.

Enquanto que MNM (multiple nucleotide mutations) resulta em 230 possíveis substituições.

Page 18: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

18

Resultados

Os dados Mutagenes apresentam alta porcentagem de MNMs (multiple nucleotide mutations) Lac: 57% e Lyso: 59%.

Swiss-Prot tem cerca de 0,2% de MNMs para disease e 0,1% para polymorphysm.

Enquanto que os dados divergentes apresenta uma variação de 5 a 40% de acordo com o limiar da seqüência identidade (SI).

Page 19: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

19

Resultados

Page 20: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

20

Resultados

A verificação da taxa de substituição dos aminoácidos devido a SNM (mutação de um único nucleotídeo) pode ser observada através da HEAT para cada um dos três dados analisados.

[log (P(datasetSubstitution)/P(HEAT Substitution))].

Page 21: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

21

Matriz HEAT

Page 22: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

22

Matriz HEAT

Page 23: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

23

Análise da HEAT

A comparação feita com a HEAT pôs em evidência as diferenças dos conjuntos de dados mostrando o potencial para discriminar SNP deleterious de neutros usando apenas o parâmetro da substituição dos aminoácidos.

Podendo ser observado que os dados:– Swiss-Prot polimorfismo com a matrix HEAT (R = 0,91,

P<0,0001) apresentaram elevado nível de correlação.– Swiss-Prot disease (R=0.81, P<0.0001)– Enquanto que o conjunto de Dados divergentes (R = 0,74,

P<0,0001).

Page 24: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

24

Discussão

Foi possível observar que é de extrema importância considerar a seleção de formação dados com muito cuidado, pois estes tem efeitos significativos sobre classificadores e taxas de erro estimada.

Os resultados sugeriram que o uso de dados de mutagenese com conteúdo significativamente alto de MNMs (mutação de múltiplos nucleotídeo) do que poderia ser esperado para nsSNPs pode levar a regras altamente irrelevantes para a predição de SNP. No entanto são bons para a predição dos efeitos gerais das mutações de proteínas.

Page 25: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

25

Discussão

Os dados divergentes também produziu dados que foram relevantes para distingui-los de mutações de patologias conhecidas, mas não são bons o suficiente para distinguir SNPs deletérios de neutros.

Page 26: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

26

Discussão

Foi então sugerido que os melhores dados de treinamento para predição de nsSNP em humanos são as variantes das proteínas humanas conhecidas: Disease e Polymorphysm anotados no Swiss-Prot.

Embora estes dados ainda apresentem problemas pois os dados anotados como polymorphysm neutro possa ter associação com uma doença ainda desconhecida.

Page 27: Deleterious SNP prediction: be mindful of your training data! Flávia Araújo frba@cin.ufpe.br

27

Conclusão

Importantes observações foram levantadas sobre os dados, sendo o Swiss-prot o melhor conjunto de dados sugerido.

Os próprios autores acreditam que os efeitos ocasionados pelos dados descritos no artigo tem afetado diversos estudos, assim como no deles.

Portanto é importante que os estudiosos deste campo estejam cientes destes efeitos.