análise computacional de seqüências nucleotídicas e protéicas blast antonio basílio de miranda...
TRANSCRIPT
![Page 1: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/1.jpg)
Análise Computacional de Seqüências Nucleotídicas e Protéicas
BLAST
Antonio Basílio de Miranda24/11/2004
Adaptado por Marcos Catanho10/05/2005
![Page 2: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/2.jpg)
As Origens... Rigorous Dynamic Programming:
Needleman & Wunsch (1970) Smith & Waterman (1981)
Heuristics: Lipman & Pearson (1985,1988) Altschul et al. (1990,1997)
![Page 3: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/3.jpg)
BLAST - Basic Local Alignment Search Tool Provavelmente a ferramenta computacional mais
utilizada em biologia molecular e bioinformática Busca seqüências armazenadas nos bancos de dados
pela similaridade entre a estrutura primária da seqüência query e as seqüências armazenadas no banco
Propriedades biológicas descritas para seqüências armazenadas podem ser transferidas para a seqüência query desde que suas estruturas primárias sejam semelhantes
O maior problema é definir um cut-off, um limite abaixo do qual as similaridades encontradas entre a query e os hits não sejam mais significativos
![Page 4: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/4.jpg)
BLAST É um método heurístico para
alinhamentos locais Projetado especialmente para
buscas em bancos de dados Idéia básica: bons alinhamentos
irão conter pequenos trechos de combinações iguais
![Page 5: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/5.jpg)
BLAST Existem vários “sabores” e tipos
de BLAST: Nucleotídeo Proteína Traduzido Genomas
![Page 6: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/6.jpg)
BLAST Nucleotídeo:
Nucleotídeo-nucleotídeo (blastn) Megablast Megablast descontínuo Busca por hits curtos e quase
perfeitos Busca em cromatogramas
![Page 7: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/7.jpg)
BLAST Proteína:
Proteína-proteína (blastp) Busca através da obtenção de perfis (PHI-
BLAST e PSI-BLAST) Busca por hits curtos e quase perfeitos Busca em bancos de dados de domínios
conservados (Smart, PFam e COG) (rps-blast)
Busca pela arquitetura de domínios (cdart)
![Page 8: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/8.jpg)
PHI-BLAST e PSI-BLAST PHI-BLAST: Em quais outras
seqüências protéicas há ocorrência do padrão P e ao mesmo tempo estas seqüências são similares à query P na vizinhança do padrão?
PSI-BLAST: Construção de uma matriz de valores posição-específica (Position Specific Scoring Matrix, PSSM)
![Page 9: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/9.jpg)
BLAST Traduzido:
query traduzida x banco de dados de proteínas (blastx)
query de proteína x banco de dados traduzido (tblastn)
query traduzida x banco de dados traduzido (tblastx)
![Page 10: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/10.jpg)
BLAST Genomas:
Galinha, vaca, porco, cachorro, ovelha, gato Amostras ambientais Homem, camundongo, rato Fugu rubripes, zebrafish Insetos, nematódeos, plantas, fungos,
malária Genomas microbianos, outros genomas
eucarióticos
![Page 11: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/11.jpg)
BLAST - algoritmo 1. Filtrar as regiões de baixa complexidade 2. Fragmentar a seqüência query e as
seqüências depositadas no banco de dados, criando “palavras“ (de comprimento 3 para proteínas e 11 para DNA) através do uso de uma janela deslizante
MEF EFP FPG PGL GLG
MEFPGLGSLGTSEPLPQFVDPALVSS
![Page 12: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/12.jpg)
BLAST - algoritmo 3. Utilizando uma matriz de
substituição (PAM, BLOSUM), encontrar todas as “palavras” de tamanho W que obtenham, no mínimo, um no. de pontos (score) T quando comparadas com a seqüência query, criando uma lista de “palavras” de alta pontuação
![Page 13: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/13.jpg)
(Parênteses – matrizes de substituição) É uma matriz representando todas
as possíveis trocas entre aminoácidos, onde um valor é atribuído a cada uma destas trocas
Esses valores são proporcionais à probabilidade de ocorrência de cada troca, tomando-se como base um determinado modelo evolutivo
![Page 14: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/14.jpg)
(Parênteses – matrizes de substituição)
![Page 15: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/15.jpg)
(Parênteses – matrizes de substituição) PAM family:
Baseiam-se em alinhamentos globais de proteínas muito próximas
PAM1 é a matriz calculada a partir da comparação de seqüências com não mais do que 1% de divergência
As demais matrizes PAM são extrapolações da PAM1 BLOSUM family:
Baseiam-se em alinhamentos locais de proteínas BLOSUM 62 é a matriz calculada a partir da
comparação de seqüências com não menos do que 62% de divergência
Todas as matrizes BLOSUM baseiam-se em alinhamentos observados; não há extrapolações
![Page 16: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/16.jpg)
BLAST - algoritmo 4. Procurar em cada seqüência
depositada no banco de dados por uma ou mais ocorrências de cada “palavra” de alta pontuação. Cada uma destas ocorrências (hit) será uma “semente” para um alinhamento sem gaps
5. Estender os hits em ambas as direções, na tentativa de gerar alinhamentos com score acima de um limiar S
![Page 17: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/17.jpg)
BLAST - algoritmo 5.1. BLAST original: extensão dos hits à
esquerda e à direita da “semente”, sem gaps. Esta extensão irá continuar enquanto o score aumentar ou pelo menos continuar o mesmo. O alinhamento obtido é chamado HSP (High Scoring Pair)
5.2. Atualmente: hits ao longo da mesma diagonal (Dot plot) com uma distância A entre os dois são reunidos e a extensão se dá com a seqüência maior obtida
![Page 18: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/18.jpg)
(Parênteses – Dot Plots - matrizes de homologia)
![Page 19: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/19.jpg)
BLAST - algoritmo 6. Reter somente os HSPs com
score acima do limiar S 7. Determinar a significância
estatística de cada alinhamento remanescente (p-value e E-value)
8. Mostrar os alinhamentos locais (de acordo com Smith-Waterman)
![Page 20: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/20.jpg)
Resultado (BLASTN)
![Page 21: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/21.jpg)
Resultado (campo de busca)
![Page 22: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/22.jpg)
Resultado (opções)
![Page 23: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/23.jpg)
Resultado (formato)
![Page 24: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/24.jpg)
Resultado (BLASTN) O output é dividido em cinco
partes: 1. Header contendo a versão do BLAST, data
da compilação, referência, RID, etc. 2. Representação gráfica dos alinhamentos 3. Sumário com uma descrição em uma linha
de cada hit 4. Os alinhamentos com seus respectivos
parâmetros calculados 5. Rodapé com a descrição detalhada dos
parâmetros de busca empregados, o banco de dados, etc.
![Page 25: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/25.jpg)
Resultado (header)
![Page 26: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/26.jpg)
Resultado (graphical overview)
![Page 27: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/27.jpg)
Resultado (one-line descriptions)
![Page 28: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/28.jpg)
Resultado (links) G: Gene U: UniGene E: GEO Profile (dados de expressão
gênica e hibridização genômica obtidos por tecnologia high-throughput)
![Page 29: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/29.jpg)
Resultado (alignments)
![Page 30: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/30.jpg)
>gi|50363246|gb|AY661748.1| Polyodon spathula Hoxa-11 (Hoxa-11) gene, partial cds Length = 1452 Score = 278 bits (140), Expect = 1e-71 Identities = 203/224 (90%) Strand = Plus / Plus Query: 19 tactacgtttcgggtcccgatttctccagcctcccttcttttttgccccagaccccgtct 78 |||||||| |||||||| |||||||||||||||||||| ||||| |||||||| |||||| Sbjct: 2 tactacgtctcgggtcctgatttctccagcctcccttcctttttaccccagacaccgtct 61 Query: 79 tctcgccccatgacatactcctattcgtctaatctaccccaagttcaacctgtgagagaa 138 |||||||||||||| ||||| ||| ||||||| || ||||| |||||||||||||||||| Sbjct: 62 tctcgccccatgacgtactcttatccgtctaacctgccccaggttcaacctgtgagagaa 121 Query: 139 gttaccttcagggactatgccattgatacatccaataaatggcatcccagaagcaattta 198 || |||||||||||||||||||||||| |||||| ||||||||||| |||||||||| || Sbjct: 122 gtaaccttcagggactatgccattgatgcatccagtaaatggcatcacagaagcaatcta 181 Query: 199 ccccattgctactcaacagaggagattctgcacagggactgcct 242 |||||||||| ||| ||||||||||| ||||||| |||||||| Sbjct: 182 tcccattgctattcagcagaggagattatgcacagagactgcct 225
Score = 48.1 bits (24), Expect = 0.024 Identities = 33/36 (91%) Strand = Plus / Plus Query: 529 agcccagagtcttcttccggcaacaatgaggagaaa 564 ||||| ||||| ||||||||||||||||| |||||| Sbjct: 509 agccctgagtcctcttccggcaacaatgaagagaaa 544
Score = 46.1 bits (23), Expect = 0.095 Identities = 32/35 (91%) Strand = Plus / Plus Query: 367 caagcctttgaccagtttttcgagacggcttatgg 401 ||||||||||| |||||||| |||||||| ||||| Sbjct: 347 caagcctttgatcagttttttgagacggcgtatgg 381
HSPs
![Page 31: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/31.jpg)
Resultado (footer)
![Page 32: Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005](https://reader035.vdocument.in/reader035/viewer/2022062818/570638481a28abb8238f4112/html5/thumbnails/32.jpg)
CDART