universidade federal do sul e sudeste do parÁ … … · universidade federal do sul e sudeste do...
TRANSCRIPT
UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ
INSTITUTO DE GEOCIÊNCIAS E ENGENHARIAS
FACULDADE DE COMPUTAÇÃO E ENGENHARIA ELÉTRICA
CURSO BACHARELADO EM SISTEMAS DE INFORMAÇÃO
Vanessa Castro Rezende
AVALIAÇÃO DE SOFTWARES PARA PREDIÇÃO DE CLUSTERS GÊNICOS:
UMA ANÁLISE in silico COM CIANOBACTÉRIAS DA ORDEM
CHROOCOCCALES
Marabá-PA
2015
UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ
INSTITUTO DE GEOCIÊNCIAS E ENGENHARIAS
FACULDADE DE COMPUTAÇÃO E ENGENHARIA ELÉTRICA
CURSO BACHARELADO EM SISTEMAS DE INFORMAÇÃO
Vanessa Castro Rezende
AVALIAÇÃO DE SOFTWARES PARA PREDIÇÃO DE CLUSTERS GÊNICOS:
UMA ANÁLISE in silico COM CIANOBACTÉRIAS DA ORDEM
CHROOCOCCALES
Trabalho de Conclusão de Curso apresentado
como requisito para obtenção do grau de
Bacharel em Sistemas de Informação.
Orientadora: Dr.ª Danielle Costa Carrara
Couto
Co-orientador: Msc. Alex Ranieri Jerônimo
Lima
Marabá-PA
2015
Dados Internacionais de Catalogação-na-Publicação (CIP)
Biblioteca Josineide da Silva Tavares da UNIFESSPA.
Marabá, PA
Rezende, Vanessa Castro
Avaliação de Softwares para Predição de Clusters
Gênicos: Uma Análise in silico com Cianobactérias da
Ordem Chroococcales/ Vanessa Castro Rezende; orientador,
Danielle Costa Carrara Couto. — 2015.
Trabalho de Conclusão de Curso (Graduação) -
Universidade Federal do Sul e Sudeste do Pará, Campus
Universitário de Marabá, Instituto de Geociências e Engenharias,
Faculdade de Educação e Engenharia Elétrica, Curso
Bacharelado em Sistemas de Informação, Marabá, 2015.
1. Software - Avaliação. 2. Bioinformática. 3. Genoma. 4.
Cianobactérias. I. Couto, Danielle Costa Carrara, orient. II.
Título.
CDD: 21. ed.: 005.1
AGRADECIMENTOS
Primeiramente agradeço a Deus, reconhecendo em todo o meu percurso a sua mão grandiosa
sobre a minha vida. Agradeço ainda pela saúde, sabedoria e forças para desenvolver este
trabalho mediante todas as dificuldades.
A minha orientadora, Profa. Dra. Danielle Costa Carrara Couto, que sempre se fez presente, me
auxiliando e apoiando, além de me apresentar a bioinformática que me deixou fascinada.
Ao meu co-orientador, Prof. Msc. Alex Ranieri Jerônimo Lima, por me ajudar tantas vezes e por
ter me recebido de forma acolhedora em seu laboratório. Obrigada por todo apoio durante a
execução deste trabalho.
A equipe do Laboratório de Tecnologia Biomolecular – LTB da Universidade Federal do Pará, por
ter me auxiliado no processo de elaboração desse trabalho e por fornecer as informações e
diretrizes principais, sem as quais esse trabalho não seria desenvolvido.
A Universidade Federal do Sul e Sudeste do Pará, pela minha formação profissional.
Aos meus pais, Alessandra Castro Rezende e Euvaldo Sobreira Rezende, pela força e
incentivo que nunca faltaram em toda a minha vida. Agradeço a Deus por nunca me
abandonarem e sempre me estimularem a prosseguir, me apoiando em momentos difíceis, não
só durante essa graduação como em toda a minha vida. Vocês merecem o melhor que eu posso
ser e espero que algum dia eu possa tentar recompensá-los por tudo que sempre fazem por
mim. Por isso dedico não só essa vitória, mas todas as vitórias e que ainda vou alcançar.
A minha irmã Maressa Castro Rezende, que sempre mostrou seu sorriso doce e seu olhar de
criança inocente e feliz, me dando forças quando estava triste ou frustrada.
As minhas avós Alda e Edna, meus tios e primos por sempre me apoiarem nessa jornada.
Aos meus amigos, especialmente minha best Aryane Pinheiro Vilhena. Somos amigas
centenárias e desde o começo de tudo estamos juntas, partilhando alegrias, tristezas e
esperanças. Agradeço por sempre estar presente na minha vida, espero que Deus reserve
muitas coisas maravilhosas para o seu futuro.
Ao meu namorado Jairo Vinícius de Oliveira, que me apoiou e teve muita paciência quando
foi necessário, ou seja, infinitas vezes. Agradeço por sua força e as milhares de vezes que me
encorajou quando estava desanimada, deixando às vezes os seus problemas para me ajudar.
Aos meus filmes, séries e bandas favoritas que sempre fizeram parte dessa jornada árdua, me
garantindo momentos de descontração e alegria, com frases como ―Que a força esteja com
você!‖, precisei.
A todos que participaram direta ou indiretamente desse trabalho. Obrigada!
i
SUMÁRIO
AGRADECIMENTOS ................................................................................................... v
SUMÁRIO ....................................................................................................................... i
LISTA DE FIGURAS .................................................................................................... iv
LISTA DE ABREVIATURAS ....................................................................................... v
LISTA DE TABELAS .................................................................................................. vii
RESUMO ........................................................................................................................ 8
ABSTRACT ................................................................................................................... 9
1. INTRODUÇÃO .................................................................................................. 10
1.1. JUSTIFICATIVA ........................................................................................... 11
1.2. OBJETIVOS ................................................................................................... 12
1.3. ORGANIZAÇÃO DO TEXTO ......................................................................... 12
2. FUNDAMENTAÇÃO TEÓRICA ..................................................................... 14
2.1. GENÔMICA ................................................................................................... 14
2.1.1. Bancos de Dados Genômicos ......................................................................... 16
2.2. PROTEÔMICA .............................................................................................. 20
2.2.1. Bancos de Dados Proteômicos ........................................................................ 21
2.3. PRODUTOS NATURAIS .............................................................................. 23
3. TRABALHOS CORRELATOS ......................................................................... 27
3.1. EXPLORANDO GENOMAS DE CIANOBACTÉRIAS PARA A
BIOSSÍNTESE DE PRODUTOS NATURAIS ................................................................... 27
3.2. A MINERAÇÃO DE GENOMA DEMONSTRA A AMPLA OCORRÊNCIA
DE CLUSTERS GÊNICOS NA CODIFICAÇÃO DE BACTERIOCINAS EM
CIANOBACTÉRIAS ........................................................................................................... 31
ii
3.3. A MINERAÇÃO DE GENOMA REVELA POTENCIAL BIOATIVO DE
BACTÉRIAS GRAM-NEGATIVAS MARINHAS ............................................................ 34
3.4. A MINERAÇÃO DE GENOMA DE PRODUTOS NATURAIS PARA
AGRUPAMENTOS DE GENES BIOSSINTÉTICOS NA SUBSEÇÃO V DE
CIANOBACTÉRIAS ........................................................................................................... 37
4. MATERIAIS E MÉTODOS ............................................................................... 42
4.1. FERRAMENTAS DE PREDIÇÃO DE PRODUTOS NATURAIS ................. 42
4.1.1. antiSMASH ..................................................................................................... 43
4.1.2. NP.searcher .................................................................................................... 44
4.1.3. NaPDoS .......................................................................................................... 45
4.1.4. DoBISCUIT .................................................................................................... 46
4.1.5. ClusterFinder .................................................................................................. 48
4.2. CIANOBACTÉRIAS ........................................................................................ 49
4.2.1. Genomas Utilizados ........................................................................................ 50
4.2.2. Formatos de Arquivos de Genomas ................................................................ 51
4.2.2.1. Formato FASTA ........................................................................................... 51
4.2.2.2. Formato GBK ............................................................................................... 52
4.3. PIPELINE .......................................................................................................... 54
5. RESULTADOS E DISCUSSÕES ...................................................................... 59
5.1. EXECUÇÃO NA FERRAMENTA ANTISMASH ....................................... 59
5.2. EXECUÇÃO NA FERRAMENTA NP.SEARCHER .................................... 69
5.3. EXECUÇÃO NA FERRAMENTA JEMBOSS ............................................. 70
5.4. EXECUÇÃO NA FERRAMENTA NAPDOS ............................................... 72
5.5. EXECUÇÃO NA FERRAMENTA DOBISCUIT ......................................... 74
5.6. RESULTADO GERAL DAS EXECUÇÕES NAS FERRAMENTAS DE
PREDIÇÃO... ....................................................................................................................... 76
6. CONSIDERAÇÕES FINAIS ............................................................................. 77
iii
6.1. TRABALHOS FUTUROS ............................................................................. 79
REFERÊNCIAS ........................................................................................................... 80
Anexo A: Resultado da Execução doBiscuit Local com a cianobactéria Synechocystis
sp. CACIAM O5 ....................................................................................................................... 87
Anexo B: Resultado da Execução doBiscuit Local com a cianobactéria Cyanobium sp.
CACIAM 14 ............................................................................................................................. 88
Anexo C: Resultado da Execução doBiscuit Local com a cianobactéria Synechocystis
sp. PCC 6803 ............................................................................................................................ 96
Apêndice I: Manual de Instalação e Utilização do antiSMASH Local 1.2 ................ 102
Apêndice II: Manual de Instalação e Utilização do NP.searcher Local ..................... 106
Apêndice III: Manual de Instalação e Uso da Ferramenta DoBiscuit ........................ 109
Apêndice IV: Manual de Instalação e Execução da Ferramenta Artemis .................. 112
iv
LISTA DE FIGURAS
Figura 1: Página inicial da plataforma NCBI 18
Figura 2: Formato do arquivo Genbank 19
Figura 3: Página Inicial da plataforma UniProtKB 22
Figura 4: Organização dos agrupamentos de genes em cianobactérias 34
Figura 5: Exemplos de grupos de genes de bacteriocina da Subseção V de cianobactérias 40
Figura 6: Página inicial da plataforma antiSMASH 44
Figura 7: Página inicial do sistema NP.searcher 45
Figura 8: Página inicial da ferramenta NaPDoS 46
Figura 9: Página inicial do banco de dados DoBISCUIT 47
Figura 10: Trecho de um arquivo FASTA referente a cianobactéria Cyanobium sp. CACIAM
14 52
Figura 11: Trecho de um arquivo GBK referente a cianobactéria Cyanobium sp. CACIAM 14
.............................................................................................................................................53
Figura 12: Pipeline de Predição de Clusters Gênicos 55
Figura 13: Parâmetros utilizados na execução do antiSMASH online 56
Figura 14: Parâmetros utilizados na execução do NapDos online 57
Figura 15: Interface da execução do Artemis 58
Figura 16: Representação antiSMASH da homologia entre os clusters gênicos similares aos
contidos no genoma da Synechocystis sp. PCC 6803 69
Figura 17: Interface do JemBoss rodando o comando Coderet nos arquivos gbk 72
Figura 18: Resultado da corrida NapDos online com o genoma do cianobactéria Cyanobium
sp.CACIAM 5 73
Figura 19: Resultados da corrida NapDos online com o genoma do cianobactéria Cyanobium
sp. CACIAM 14 73
Figura 20: Resultado da corrida NapDos online com o genoma da cianobactéria
Synechocystis sp. PCC 6803 74
v
LISTA DE ABREVIATURAS
antiSMASH Antibiotics and Secondary Metabolite Analysis Shell
BGCs Biosynthetic Gene Clusters (Agrupamento de Genes Biossintéticos)
BLAST Basic Local Alignment Tool (Ferramenta de Alinhamento Básico Local)
CACIAM Coleção Amazônica de Cianobactérias e Microalgas
CDS Coding Sequence (Sequencia Codificante)
CyanoGEBA Encyclopedia Genomic of Bacteria and Archaea (Enciclopédia
Genômica de Bactérias e Archaeas)
DDBJ DNA Data Bank of Japan (Banco de Dados de DNA do Japão)
DNA Deoxyribonucleic Acid (Ácido Desoxirribonucleico)
DoBISCUIT Database of Biosynthesis Clusters Curated and Integrated (Banco de dados de
clusters biossintéticos)
EBI European Bioinformatics Institute (Instituto Europeu de Bioinformática)
EMBL European Molecular Biology Laboratory (Laboratório Europeu de Biologia
Molecular)
ENA European Nucleotide Archive (Arquivo Europeu de Nucleotídeos)
FASTA Fast Alignment Tool (Ferramenta de Alinhamento Rápido- Formato
utilizado para armazenar sequências de bases e de aminoácidos em
arquivo texto)
FTP File Transfer Protocol (Protocolo de Transferência de Arquivo)
GenBank Banco de dados público do National Center for Biological Information, do
Instituto de Saúde dos Estados Unidos da América.
GBK Extensão de arquivo que armazena sequências Genéticas.
HMM Hidden Markov Model (Modelo Oculto de Markov)
INSDC International Nucleotide Sequence Database Colaboration (Colaboração
Internacional de Base de Dados de Sequências de Nucleotídeos)
JGI Joint Genome Institute
KS Cetosintase (Domínio de condensação de PKS)
LTB Laboratório Tecnológico Biomolecular
MEGAN Metagenome Analyse
mRNA RNA mensageiro
NaPDoS Natural Product Domain Seeker (Preditor de clusters biossintéticos)
NCBI National Center for Biotechnology Information (Centro Nacional de
Informações em Biotecnologia)
vi
NGS Next-Generation Sequencing (Tecnologias de sequenciamento de nova
geração)
NIG Institute National of Genetic (Instituto Nacional de Genética)
NIH Institute National of Health (Institutos Nacionais de Saúde)
NRP Nonribosomal Peptide (Peptídeo não-ribossomal)
NRPS Nonribosomal Peptide-Synthetase (Sintase de Peptídeo não
Ribossomal)
ORF Open Reading Frames (Sequência codificadora de proteína)
PANDA The Protein and Nucleotide Database Group (Banco de Proteínas e
Nucleotídeos)
Pb Pares de bases
PCR Polimerase Chain Reaction Reação em cadeia da polimerase
PDB Protein Database Bank (Banco de Dados de Proteína)
PGAAP Prokaryotic Genome Automatic Annotation Pipeline
PIR Protein Information Resource
PK Polyketides (Policetídeos)
PKS Polyketides-synthetase (Policetídeo Sintase)
PRF Protein Research Foundation (Fundação de Pesquisa de Proteínas)
PTMs Post-translational Modifications (Modificações pós-traducionais)
RAST Rapid Annotation using Subsystem Technology
RNA Ribonucleic Acid (Ácido Ribonucléico)
UFPA Universidade Federal do Pará
UNIFESSPA Universidade Federal do Sul e Sudeste do Pará
vii
LISTA DE TABELAS
Tabela 1: Clusters de metabólitos secundários identificados na cianobactéria Cyanobium sp.
CACIAM 14 através do antiSMASH online 59
Tabela 2: Quantidade de produtos dectados por formato de arquivo na execução online do
antiSMASH 3.0.2 na cianobactéria Cyanobium sp. CACIAM 14 61
Tabela 3: Clusters de metabólitos secundários identificados na cianobactéria Cyanobium sp.
CACIAM 14 através do antiSMASH local 62
Tabela 4: Quantidade de produtos dectados por formato de arquivo na execução local do
antiSMASH 2.0 na cianobactéria Cyanobium sp. CACIAM 14 62
Tabela 5: Clusters de metabólitos secundários identificados na cianobactéria Synechocystis
sp. CACIAM 05 do antiSMASH online 63
Tabela 6: Quantidade de produtos dectados por formato de arquivo na execução local do
antiSMASH 2.0 na cianobactéria Synechocystis sp. CACIAM 05 64
Tabela 7: Clusters de metabólitos secundários identificados na cianobactéria Synechocystis
sp. CACIAM 05 do antiSMASH local 65
Tabela 8: Clusters de metabólitos secundários identificados na cianobactéria Synechocystis
sp. PCC 6803 do antiSMASH online 66
Tabela 9: Quantidade de produtos dectados por formato de arquivo na execução local do
antiSMASH 2.0 na cianobactéria Synechocystis sp. PCC 6803 68
Tabela 10: Clusters de metabólitos secundários identificados na cianobactéria Synechocystis
sp. PCC 6803 do antiSMASH local 68
Tabela 11: Número Total de Produtos Naturais preditos por cada Ferramenta 76
RESUMO
Cianobactérias são microorganismos que ganham cada vez mais atenção por sua capacidade
de produzir uma grande variedade de substâncias de interesse biotecnológico, ou seja,
produtos naturais que são moléculas orgânicas isoladas a partir de organismos vivos. Para
auxiliar a análise do grande número de informações genéticas envolvidas na síntese de
produtos naturais, sugiram diversas ferramentas in silico que foram desenvolvidas por
bioinformatas, buscando auxiliar e otimizar este processo. O presente trabalho teve como
objetivo central a realização da avaliação de desempenho e resultados de algumas das
ferramentas in silico de predição de clusters gênicos que atualmente são mais utilizadas pelos
pesquisadores na busca por produtos naturais em arquivos biológicos correspondentes a
diversos genomas. O trabalho teve como objetivos específicos a realização de um estudo
teórico acerca dos assuntos relacionados às principais teorias da área, seguidas da pesquisa
por ferramentas de bioinformática que realizassem a predição de produtos naturais, realizando
uma análise comparativa entre técnicas para predição de clusters gênicos selecionados nos
trabalhos da literatura e a aplicação de tais técnicas e ferramentas para a caracterização de
clusters gênicos nos genomas de cianobactérias da Amazônia: Cyanobium sp. CACIAM 14 e
Synechocystis sp. CACIAM 05, sendo que ambos os genomas foram cedidos pelo LTB
(Laboratório de Tecnologia Biomolecular) da Universidade Federal do Pará. Também foi
utilizado o genoma da Synechocystis sp. PCC 6803 que é amplamente utilizado na
comunidade para realização de testes. Por fim, um pipeline foi gerado para caracterizar o
processo de identificação de clusters gênicos utilizando ferramentas como: antiSMASH,
NP.searcher, NapDos e DoBISCUIT. Através desse estudo concluiu-se que ferramentas de
predição de clusters gênicos servem para auxiliar os bioinformatas e a comunidade biomédica
e/ou biológos na detecção de produtos naturais, reduzindo custos referentes a pesquisas in
vitro, além de maximizar o tempo e reduzir esforços na análise de genomas, verificando
também que as predições de uma mesma ferramenta podem variar de acordo com o tipo de
anotação realizada no arquivo biológico dado como entrada. Contudo, a predição com as
ferramentas de detecção de clusters gênicos deve estar alinhada a análise manual para uma
validação mais eficaz dos resultados.
Palavras chaves: Genoma, Ferramentas de Predição de Clusters Gênicos, Banco de Dados
Biológicos e Cianobactérias.
ABSTRACT
Cyanobacteria are microorganisms that increasingly are gaining attention due to their ability
to produce a large variety of substances of biotechnological interest, in other words, natural
products are organic molecules isolated from living organisms. To aid the analysis of large
number of genetics informations involved in the synthesis of natural products, several tools in
silico have been developed by researchers, seeking facilitate and optimize the process of
prediction. This work had as main objective the achievement of the performance evaluation
and results of some of the tools in silico for prediction of gene clusters that currently are most
used by researchers in the search for natural products in biological files corresponding to
various genomes. The specific purposes of this study was the carrying out a theoretical study
about main theories of the area of bioinformatic, followed by the search for tools that make
prediction of natural products, making an comparative analysis of techniques for prediction of
gene clusters selected in the literature works and application of the techniques and tools for
the characterization of gene clusters in the cyanobacterial genomes of Amazon: Cyanobium
sp. CACIAM 14 and Synechocystis sp. CACIAM 05, and both genomes were provided by
LTB (Laboratory of Biomolecular Technology) of the Universidade Federal do Pará. The
genome of Synechocystis sp. PCC 6803 also was been used, because it is widely used by the
community for tests. Finally, a pipeline was generated to characterize of the gene clusters
identification process using tools such as: antiSMASH, NP.searcher, NapDos and
DoBISCUIT. Through this study it was concluded that the tools of prediction of gene clusters
serve to help researchers, the community of biomedical and/or biologists in the detection of
natural products, reducing costs with in vitro research, as well as maximizing the time and
reduce efforts with genomes analysis, also checking that results of the predictions with same
tool may vary according to the type of annotation file held in the biological data as an input.
However, the prediction of gene clusters with the detection tools must be aligned with manual
analysis for an validation more effective of the results.
Key words: Genome, Tools Prediction of Gene Clusters, Database Biological, Cyanobacteria.
10
1. INTRODUÇÃO
Com o avanço da biologia molecular nas últimas décadas, grandes quantidades de
dados se tornaram disponíveis, ocasionando na criação de bancos de dados e ferramentas de
análise para se adaptar ao crescente volume de informações, permitindo a construção de
modelos mais amplos, capazes de lidar com aspectos e fenômenos biológicos até então
inacessíveis (VERLI, 2014).
A determinação do sequenciamento do primeiro genoma1
completamente terminado
deu início à era da genômica (CLAVERIE et al., 2007). A Genômica é uma subdivisão do
campo da genética, gerada pela união da biologia clássica e da biologia molecular, com o
objetivo de sequenciar e conhecer os genes, as interações gênicas, os elementos genéticos e as
estruturas dos genomas (KLUG et al., 2010).
O que torna a genômica diferente de outras pesquisas biológicas é o fato dela utilizar
informações em larga escala, assim como o uso de computadores potentes para pesquisar
características em dezenas de milhares de genes (WATSON et al., 2009). A genômica ainda
possui várias subdivisões, entre as principais estão a Genômica Funcional, responsável por
descrever as atividades dos genes e proteínas, e a Genômica Comparativa, que busca conhecer
as relações e a homologia entre as sequências genéticas.
Alguns genes atuam, de forma que, uma determinada substância precursora seja
desdobrada em substratos até dar origem a um produto biológico final. Tais genes produzem
enzimas e o ciclo para produção de um produto final é denominado como via biossintética.
Diversos genomas que foram sequenciados contribuíram para o entendimento e busca de
novos genes biossintéticos (LEWIS, 2000; BURJA, 2001; BARACALDO, 2005; DAHMS et
al., 2006; ABED et al., 2009).
O sequenciamento de genomas revelou que bactérias possuem mais agrupamentos de
genes biossintéticos (BGCs) do que o previsto, com base no número de metabólitos
secundários descobertos até hoje. Metabólitos secundários são produtos naturais produzidos
por certos grupos de micro-organismos e plantas, possuindo grande importância para a
indústria farmacêutica e agropecuária (SCHUCH, 2007).
1 Genoma é o conjunto de informações hereditária codificadas no DNA de um organismo, incluindo as
sequências codificadoras de proteínas e não proteínas (KLUG et al., 2010).
11
Embora este reservatório biossintético tenha fomentado o interesse em novas
ferramentas para a descoberta de produtos naturais, continua a existir uma lacuna entre a
detecção de agrupamentos de genes e descoberta de compostos (DUNCAN et al., 2015).
Sendo assim, agrupamentos de genes recentemente identificados podem ser analisados
para prever a estrutura singular de um produto ou podem ser utilizados para a expressão
heteróloga2. Eventualmente, espera-se que os produtos naturais identificados pela mineração
de genoma sejam testados e utilizados por suas propriedades benéficas e bioatividades
(MICALLEF et al., 2014).
Uma grande quantidade de genes envolvidos na síntese de produtos naturais tem sua
estrutura definida, sendo assim possível predizer a especificidade do substrato através de
ferramentas in silico (YADAV; GOKHALE; MOHANTY, 2003).
Nesse contexto, um dos objetivos mais importantes da pesquisa moderna por
metabólitos secundários é buscar prever com precisão estruturas de produtos naturais e vias
biossintéticas a partir de sequências de clusters gênicos, com o objetivo de encontrar possíveis
novos fármacos e biocombustíveis com o auxílio das ferramentas de predição
computadorizadas.
1.1. JUSTIFICATIVA
Devido à conservação entre os clusters gênicos de produtos naturais, é possível aplicar
a genômica comparativa para identificar estes clusters no genoma do organismo alvo,
possibilitando até mesmo prever parcialmente o produto natural a ser formado pelo dado
cluster gênico, facilitando a busca de metabólitos inéditos e inovadores. Outro fator positivo é
a capacidade de buscar genes repórteres3, por serem genes bem conservados em organismos
com clusters gênicos biossintéticos (OWEN et al., 2012).
A enorme acumulação de dados de sequenciamento de genomas fez com que muitos
pesquisadores de produtos naturais se voltassem para abordagens in silico com o objetivo de
avaliar rapidamente o potencial natural de um organismo recém-sequenciado. É nesse
contexto que várias ferramentas de bioinformática foram desenvolvidas (MICALLEF et al.,
2014).
2 Expressão heteróloga é quando um gene específico é expresso em um determinado organismo hospedeiro, com
o objetivo principal de gerar grandes quantidades de proteína recombinante. 3 Genes repórteres são aqueles que codificam para uma proteína, geralmente com atividade enzimática, cujo
produto é facilmente detectável em células eucarióticas, sendo usado como marcador para determinar a atividade
de outro gene, além de funcionar como gene complementar ao gene de seleção (FCBA, 2015).
12
Algumas ferramentas de bioinformática estão disponíveis online, e podem identificar
clusters biossintéticos em contigs4 e genomas, por intermédio da busca por domínios
essenciais e/ou genes repórteres, diminuindo principalmente custos de pesquisas com a
mesma busca sendo realizada com organismos vivos em laboratório.
Finalmente, é fundamental enfatizar a importância de um método simples e rápido
para predição computacional de clusters biossintéticos de genomas ambientais, além de
direcionar esforços na busca de metabólitos inovadores, reduzindo assim a taxa de
redescoberta de compostos já comercializáveis, assim como os gastos perdidos nesse processo
(COUTO, 2014).
1.2. OBJETIVOS
O objetivo geral deste trabalho é avaliar ferramentas e técnicas para identificação de
clusters gênicos biossintéticos utilizando-se da genômica comparativa e funcional, para
direcionar a descoberta de produtos naturais nos dados de três cianobactérias da ordem
Chroococcales.
Objetivos Específicos:
● Pesquisar ferramentas de bioinformática que realizem a predição de produtos naturais;
● Fazer análise comparativa entre técnicas para predição de clusters gênicos
selecionados em trabalhos correlatos;
● Testar técnicas e ferramentas para a caracterização de clusters gênicos nos genomas da
Cyanobium CACIAM 14, Synechocystis sp. PCC 6803 e no draft5 da Synechocystis sp.
CACIAM 05;
● Gerar um pipeline para caracterização de clusters gênicos em cianobactérias utilizando
ferramentas de bioinformática.
1.3. ORGANIZAÇÃO DO TEXTO
Além desta introdução previamente apresentada, as seções deste trabalho estão
distribuídas da seguinte forma: a Seção 2 apresenta a Fundamentação Teórica, descrevendo as
áreas de conhecimento que compõe o presente trabalho; a Seção 3 trata dos Trabalhos
4 Contigs são formados por trechos contínuos de DNA que se sobrepõem e são derivados de uma única fonte de
material genético, a partir da qual uma sequência completa pode ser deduzida, gerando sequências montadas
(PEIXOTO, 2011). 5 Draft é um genoma que ainda não foi completamente montado.
13
Correlatos, contendo os trabalhos da literatura que foram utilizados para efeito de pesquisa e
comparação com o presente trabalho. A Seção 4 intitulada como Materiais e Métodos possui
os procedimentos metodológicos aplicados nesse trabalho. Já a Seção 5 apresenta os
Resultados e Discussões sobre o trabalho desenvolvido, baseado na metodologia aplicada e,
por fim, as Considerações Finais são apresentadas na Seção 6.
14
2. FUNDAMENTAÇÃO TEÓRICA
À medida que os projetos de sequenciamento de DNA se disseminaram e cada vez
mais sequências genéticas foram geradas, apareceram inúmeras disciplinas novas na área
biológica. Entre elas está a genômica, responsável por sequenciar os genomas e estudar a
estrutura, a função e a evolução dos genes e genomas (LESK, 2008).
Outra disciplina, a proteômica, é proveniente da genômica. A proteômica identifica o
grupo de proteínas presentes em uma célula, sob um dado contexto, além de estudar
adicionalmente a modificação pós-traducional6 dessas proteínas, sua localização no interior
das células e as interações proteína-proteína que ali ocorrem. Para armazenar, recuperar e
analisar a quantidade maciça de dados gerados pela genômica e pela proteômica foi criado um
subcampo especializado da tecnologia da informação chamado bioinformática, cuja finalidade
é desenvolver hardwares e softwares para processar dados nucleotídicos e protéicos (KLUG
et al., 2010).
O volume de informações da genômica e proteômica necessita ser interpretado a partir
de métodos e técnicas da bioinformática, um dos maiores alvos da interpretação desses dados
é a identificação de novos produtos naturais, principalmente por se tornarem novos fármacos,
antitumorais, entre outros. Sendo assim, os estudos relacionados ao desenvolvimento de
novos medicamentos a partir de produtos naturais são primordiais para a descoberta de novos
compostos que podem auxiliar no tratamento de diversas doenças (BRANDÃO et al., 2012).
2.1. GENÔMICA
O termo genoma, significando o conjunto completo de informações codificadas no
DNA de uma unidade celular de um organismo, incluindo tanto os genes como as sequencias
não codificadoras, foi cunhado em 1920, época em que os geneticistas começavam a passar
do estudo de genes individuais para um enfoque mais panorâmico (KLUG et al., 2010).
Em 1977, quando algumas técnicas de DNA recombinante foram elaboradas, Fred
Sanger e parceiros, estabeleceram o campo da genômica através do estudo dos genomas,
usando um modelo de sequenciamento de DNA recém-desenvolvido, com o objetivo de
sequenciar o genoma de 5.400 nucleotídeos do vírus phi X174. Em um curto período, outros
genomas virais foram sequenciados, contudo, tais técnicas eram consideravelmente lentas e
6 Modificações pós-traducionais (PTMs) são eventos de processamento covalente que podem alterar o tamanho,
composição, função e/ou localização das proteínas (VEAS, 2013).
15
trabalhosas, restringindo sua aplicação a genomas pequenos. No decorrer das décadas
seguintes, a expansão de métodos de sequenciamento de DNA automatizados por meio da
computação, tornou possível o sequenciamento de genomas de organismos complexos em
larga escala, inclusive dos 3,1 bilhões de nucleotídeos que constituem o genoma humano. As
informações contidas nos genomas podem originar novos métodos de diagnóstico, formulação
de novos medicamentos, vacinas, prevenção e tratamentos mais eficazes contra diversas
doenças (KLUG et al., 2010).
As novas tecnologias de sequenciamento de DNA, denominadas de tecnologias de
sequenciamento de nova geração (do inglês Next-Generation Sequencing - NGS), começaram
a ser comercializadas em 2005 e estão evoluindo muito rapidamente. Elas promovem o
sequenciamento de DNA em plataformas capazes de gerarem informação de milhões de pares
de bases em um único procedimento (TOLEDO-ARANA; SOLANO, 2010).
O desenvolvimento de tecnologias de DNA recombinante, associado ao advento dos
métodos de sequenciamento de DNA automatizados por computador, é responsável pela
aceleração do campo da genômica. Nesse contexto, as tecnologias genômicas se
desenvolveram tão rapidamente que a pesquisa biológica moderna agora está experimentando
uma revolução genômica. Das novas subdisciplinas da genômica, as principais compreendem
a genômica estrutural, genômica funcional e a genômica comparativa (KLUG et al., 2010).
A genômica estrutural visa sequenciar genomas e analisar as sequencias nucleotídicas,
buscando identificar genes e outras sequências importantes, como regiões reguladoras de
genes. Por outro lado, a genômica funcional é responsável por estudar as alterações das
atividades genômicas em diferentes estágios do desenvolvimento e sob diferentes condições
ambientais. Já a genômica comparativa, interliga a estrutura e a funcionalidade dos genomas,
buscando conhecer o grau de relacionamento entre os mesmos, assim como a similaridade
entre sequências e genes, determinando o grau de sintenia7 de espécies correlacionadas
(WATSON et al., 2009).
É nesse cenário que estudos genômicos também têm sido fundamentais para a
compreensão do potencial biotecnológico dos organismos. Basicamente, consiste na avaliação
de seus recursos genéticos, ou seja, o sequenciamento de seu genoma e a caracterização dos
genes (FELÍCIO; OLIVEIRA; DEBONSI, 2012).
7 Sintenia é a presença de dois ou mais loci gênicos, local fixo num cromossomo onde está localizado um
determinado gene ou marcador, no mesmo cromossomo. Também referem-se, por exemplo, à similaridade no
conteúdo e organização entre os cromossomos de diferentes espécies (CARNEIRO; VIEIRA, 2002).
16
2.1.1. Bancos de Dados Genômicos
A Colaboração Internacional de Base de dados de Sequências de Nucleotídeos
(International Nucleotide Sequence Database - INSDC) disponibiliza um repertório de
sequências e é resultado da associação de três bancos de dados parceiros, o Instituto Europeu
de Bioinformática (European Bioinformatics Institute – EMBL), o GenBank do NCBI
(National Center for Biotechnology Information) nos Estados Unidos da América e o Banco
de Dados de DNA do Japão (DNA Data Bank of Japan – DDBJ). Os registros da associação
EMBL/GenBank/DDBJ incluem genes individuais, genomas completos, RNAs, anotações,
sequências expressas, cDNAs8 e sequências sintéticas. Em virtude de sua designação como
sendo um provedor de dados primários, o banco EMBL/DDBJ/GenBank é a fonte inicial de
muitos bancos de dados em biologia molecular (ESPÍNDOLA et al., 2010).
A troca de dados dos bancos parceiros do INSDC ocorre diariamente. Para garantir que
a coleção uniforme e abrangente de informações sequenciadas estará disponível em todo o
mundo, o NCBI (National Center for Biotechnology Information) torna as informações
contidas no GenBank disponíveis sem custo através da Internet, por meio de servidores e
uma ampla gama de serviços de recuperação e análise de bases na web (BENSON et al.,
2014).
O GenBank é acessível através do NCBI, que é uma divisão da Biblioteca Nacional de
Medicina, localizada no campus dos Institutos Nacionais de Saúde (NIH), em Bethesda,
Maryland nos Estados Unidos. O site do NCBI (Figura 1) é responsável por integrar
informações a partir das principais bases de dados de sequências de DNA e proteínas,
juntamente com a taxonomia, genomas, mapeamentos, estruturas proteicas e informações de
domínio, além da literatura biomédica da revista via PubMed. Através do BLAST que é uma
ferramenta de comparação de sequenciamentos disponíveis no NCBI, são fornecidas
pesquisas de similaridade de sequência do GenBank e outros bancos de dados de
sequenciamento (BENSON et al., 2014) .
8 cDNA representa o DNA complementar que sequencia RNA.
17
Figura 1: Página inicial da plataforma NCBI. Fonte: NCBI, 2015
As informações desse banco estão disponíveis em vários programas do NCBI e
também em arquivos no formato texto no seu servidor de arquivos FTP (File Transfer
Protocol). Estes arquivos seguem o padrão definido em conjunto pelo EMBL e recebe o nome
de GenBank. Portanto, o nome GenBank se refere ao mesmo tempo a um banco de dados do
NCBI e a um formato de arquivo como mostra a figura 2 (MIZRACHI, 2010).
18
Figura 2: Formato do arquivo Genbank. Fonte: NCBI, 2015
Segundo Benson et al. (2014), o GenBank é um banco de dados público de sequências
nucleotídicas, apoio bibliográfico e anotação biológica de abrangência, além de conter
publicamente sequências de nucleotídeos para mais de 300.000 espécies formalmente
descritas. Tais sequências são obtidas principalmente através da apresentação de indivíduos
nos laboratórios, submissões de lote de larga escala e projetos de sequenciamento, incluindo
genomas completos e projetos de amostragem ambientais.
O EMBL é um banco de dados europeu primário, onde as sequências genéticas são
submetidas pelos pesquisadores de modo similar ao NCBI GenBank. É um projeto liderado
por Guy Cochrane, líder de um grupo de biólogos, desenvolvedores e cientistas da
computação que mantêm e desenvolvem o Arquivo Europeu de Nucleotídeos (ENA), que
integra o Grupo PANDA (acrônimo de The Protein and Nucleotide Database Group - Banco
de Proteínas e Nucleotídeos) (ENA, 2015).
Já o banco de dados do Japão DDBJ (http://www.ddbj.nig.ac.jp) atua desde 1987,
manipulando recursos públicos de informação genética no Instituto Nacional de Genética
(NIG), fornecendo apresentação, arquivos, pesquisas, serviços de download e análise de dados
19
biológicos. Um dos principais objetivos do DDBJ é apoiar e promover a partilha e utilização
de dados biológicos como um recurso público. O arquivo DDBJ tradicional recolhe
sequências de nucleotídeos anotados para colaborar com o EMBL e o GenBank no NCBI,
como bancos de dados parceiros do INSDC (TATENO, 2012).
Além dos bancos de dados primários, existem os bancos de dados secundários, como o
PIR (Protein Information Resource) ou o UniProtKB, que derivam dos bancos primários, ou
seja, foram formados usando as informações depositadas nos bancos primários (HUNTER et
al., 2009).
Outro exemplo de banco de dados de sequências genômicas secundárias de
nucleotídeos é o Ensembl, uma fonte compreensível de anotações estáveis, em que genes são
anotados por evidências derivadas de proteínas conhecidas, cDNAs e sequências expressas.
Novos genes são determinados pelo sistema de construção de genes, incorporando uma
variedade de métodos, incluindo homologia e predição pela aplicação do HMM9 (Hidden
Markov Model – Modelo Oculto de Markov) (HUBBARD et al.,2005).
O KEGG GENES é um catálogo de genes para todos os genomas completos e alguns
genomas parciais gerados a partir de recursos públicos (KANEHISA; GOTO, 2000). Tal
coleção é parte da Enciclopédia de Kyoto de Genes e Genomas e fornece um conjunto de
bases de dados integradas que pode ser usada para realizar análises em nível de sistema
(KANEHISA et al., 2008).
Atualmente, a infraestrutura de banco de dados públicos abrange uma grande coleção
de dados biológicos heterogêneos, abrindo novas oportunidades para a pesquisa biológica,
biomédica e bioinformática, que trata da integração e processamento computacional destes
dados (LESK, 2008).
A variedade de bancos de dados biológicos é imensa. Geralmente, os bancos de dados
são originados a partir de uma necessidade específica para um projeto e acabam atingindo o
domínio público, devido à relevância das descobertas ou pelas exigências das revistas
especializadas, que muitas vezes condicionam o acesso a esses dados para aceitarem e
publicarem os artigos submetidos. Uma lista de banco de dados biológicos pode ser
encontrada em Oxford Journals | Life Sciences | Nucleic Acids Research | Database Summary
Paper Alpha List (http://www.oxfordjournals.org/nar/database/a/) (COUTO, 2014).
9 Modelo Oculto de Markov (HMM) trata-se de um formalismo Markoviano utilizado para representar situações
nas quais a fonte geradora dos sinais observados encontra-se oculta ao observador. Tal formalismo pode ser
usado tanto para estudar a natureza dessa fonte quanto para ajudar a prever observações futuras (ESPÍNDOLA,
2009).
20
2.2. PROTEÔMICA
Diversos estudos na área biológica têm focado em alterações nos genes, seus
transcritos e produtos proteicos envolvidos em processos celulares importantes, na procura de
marcadores moleculares que contribuam no diagnóstico precoce e tratamento de várias
doenças humanas (BUZOLIN et al., 2012).
Desse modo, para entendimento dos procedimentos relacionados a doenças humanas
com consequentes benefícios para os pacientes, é elementar que em paralelo aos dados
oriundos do genoma e aos dados clínicos, sejam também obtidas informações sobre as
diferenças proteicas. Para discernir tais diferenças é fundamental conhecer o conjunto de
proteínas modificadas pelo genoma, que também pode ser definido como proteoma
(BARBOSA, 2012).
Segundo Lesk (2008), o projeto proteoma é um programa em larga escala que lida de
forma integral com os padrões de expressão de proteínas em sistemas biológicos, de modo a
complementar e suplementar os projetos genoma.
O proteoma, em analogia ao genoma, é o conjunto de proteínas de um organismo. A
proteômica combina identificação, distribuição, interações, dinâmica e padrões de expressão
das proteínas de sistemas vivos. R. Simpson apud Lesk (2008), criou a analogia: se o genoma
é uma lista dos instrumentos em uma orquestra, as proteínas são a orquestra executando uma
sinfonia. É um assunto que envolve um grande volume de informações e depende de técnicas
rápidas de coleta de dados em larga escala. Entre essas técnicas encontram-se a análise com
microarranjos de DNA e a espectrometria de massa (LESK, 2008).
Contudo, o proteoma não se trata somente da soma dos produtos traduzidos a partir
das sequências genômicas, mas também engloba proteínas resultantes de processos pós-
transcricionais e pós-traducionais, assim como complexos produzidos por essas biomoléculas.
Apesar de sua ampla complexidade, o proteoma é dinâmico e seu perfil muda conforme o
status fisiológico e as etapas da diferenciação celular (BARBOSA, 2012).
Logo, para auxiliar os estudos relacionados à proteomas, surge uma nova área, a
proteômica, que é a área científica responsável por lidar com a visualização e quantificação do
conjunto de moléculas de proteínas presentes em um determinado tecido ou organismo
(CLAVERIE et al., 2007).
O termo proteômica alude ao estudo do conjunto dessas moléculas, que são
responsáveis direta ou indiretamente pelo controle da maioria dos processos biológicos, além
de explorar de forma descritiva e quantitativa desde o conjunto de proteínas de uma organela
21
subcelular até aquelas de um ecossistema, suas variações na população, mudanças em
resposta a um ambiente, além de modificações e interações com outras proteínas (BARBOSA,
2012).
2.2.1. Bancos de Dados Proteômicos
No estudo completo das proteínas, integrando estrutura e função, os pesquisadores
utilizam diversos bancos de dados que possam atender os diferentes ramos da proteômica
(ESPÍNDOLA et al., 2010). Dentre os bancos de dados que armazenam informações sobre
proteínas, existem vários bancos de dados secundários, um deles é o UniProtKB (figura 3),
que consiste em um banco de dados onde as informações sobre sequências de proteínas são
anotadas e associadas as informações sobre função, domínios funcionais, proteínas homólogas
e outros (BELL; COLLISON; LORD, 2013).
Figura 3: Página Inicial da plataforma UniProtKB. Fonte: UniProtKB, 2015
A anotação de proteínas no UniProtKB é bastante completa. A curadoria busca
adicionar o máximo de informações possíveis relacionadas à proteína no UniProtKB e, para
isso, os curadores fazem uso principalmente de publicações sobre as moléculas em questão. O
banco também é capaz de produzir a menor redundância possível com relação às entradas de
proteínas, tentando incorporar todo o dado de uma determinada proteína em uma única
entrada para cada organismo (COUTO, 2014).
22
Já o banco de dados Entrez Protein, é disponibilizado pelo NCBI e compilado através
de uma variedade de fontes, além de conter sequências de proteínas submetidas aos bancos
PIR (Protein Information Resource), UniProtKB/Swiss-Prot, PRF (Protein Research
Foundation) e o PDB (Protein Database Bank) (ESPÍNDOLA et al., 2010).
O Pfam (http://pfam.sanger.ac.uk) é um banco de dados de famílias de proteínas com
elementos estruturais e funcionais comuns (FINN et al., 2008). Tais famílias são
representadas pelos alinhamentos múltiplos de sequências e modelos ocultos de Markov, que
são modelos probabilísticos utilizados para a inferência estatística de homologia, construído a
partir de um conjunto de sequências alinhadas representante de familiares definidos pelo
curador. Os dados do Pfam estão disponíveis em uma variedade de formatos, que incluem
flatfiles (derivado do banco de dados MySQL) e depósitos de tabela relacional, sendo que
ambos podem ser baixados via FTP através do site (ftp://ftp.sanger.ac.uk/pub/databases/Pfam)
(FINN et al., 2014).
O banco de dados Interpro integra diferentes bases de dados especializadas (MULDER
et al., 2007), um recurso de bioinformática que permite a busca simultânea em diferentes
banco de dados de domínio de proteínas, através de SRS (Sistema de Recuperação de
Sequência) ou o Oracle DBMS (ZDOBNOV et al., 2002).
Entre os bancos de proteínas outrora citados, o RefSeq se destaca por ser um dos
bancos de dados secundários mais utilizados mundialmente por biólogos, possuindo como
objetivo principal a produção de um conjunto não redundante de sequências de DNA
genômico, transcritos (cDNA) e de proteínas para diversos organismos. Para cada gene
conhecido de um determinado organismo, o banco possui uma única entrada. Ademais, ele
expressa os dados dos genes e proteínas associadas a diversas informações úteis, a exemplo,
sua função, análises de mutação, polimorfismos conhecidos, entre outros (PRUITT et al.,
2012).
O RefSeq foi criado e é sustentado pelo NCBI por curadoria manual, isto é, cada
sequência é analisada por pesquisadores treinados, as informações relevantes são adicionadas
à entrada RefSeq do banco de dados. Esse banco também apresenta referências cruzadas com
outros bancos de dados, permitindo que outras informações adicionais sejam relacionadas
com uma determinada sequência de biomoléculas, sendo ainda capaz de reunir vários dados
diferentes em uma plataforma consistente, apresentando um conjunto de padrões e
convenções comuns (COUTO, 2014).
23
Finalmente, o banco de dados de proteínas (GenPept) é classificado como um banco
do GenBank, que é composto por um conjunto de coleções de sequências de proteínas, assim
como suas características. O GenPept foi produzido pelo NCBI, como parte de uma
colaboração internacional com o EMBL e a Biblioteca de dados do Instituto Europeu de
Bioinformática (EBI). Este sistema de recuperação foi compilado a partir de uma variedade de
fontes, incluindo UniProtKB/SwissProt, PIR, PRF, PDB, e traduções de regiões codificantes
anotadas no GenBank e RefSeq (METALIFE, 2015).
2.3. PRODUTOS NATURAIS
As diversidades naturais sempre aguçaram no ser humano um fascínio, não somente
pelos recursos oferecidos para sua alimentação, mas também por ser uma de suas principais
fontes de aprendizado. Buscando incessantemente compreender as leis naturais e traspor as
barreiras à sua sobrevivência, o homem chegou a atual fase de desenvolvimento científico,
mesmo após os avanços tecnológicos observados nos dias de hoje (VIEGAS JUNIOR et al.,
2006).
A procura pelo alívio e cura de doenças através da ingestão de ervas e folhas, talvez
tenha sido uma das primeiras formas de aplicação dos produtos naturais, que são utilizados
pela humanidade desde tempos imemoriais. A história do desenvolvimento de diversas
civilizações é farta em amostras da utilização de recursos naturais na medicina para controle
de pragas e a criação de mecanismos de defesa. Um exemplo desse desenvolvimento é a
medicina tradicional chinesa, que se amplificou de tal forma que até hoje diversas espécies e
preparados vegetais medicinais são estudados na busca pelo entendimento de seu mecanismo
de ação e no isolamento de princípios ativos (VIEGAS JUNIOR et al., 2006).
Produtos naturais são substâncias frequentemente constituídas por estruturas químicas
complexas e com uma orientação espacial bem definida, podendo atuar como modelos
estruturais para síntese de novas substâncias ou protótipos ativos. Estes produtos naturais,
também denominados metabólitos secundários ou compostos bioativos, são característicos e
até mesmo únicos para determinados grupos específicos de organismos, e são sintetizados
para interagir com eficácia com seus alvos biológicos (KINGSTON, 2011; UNESP, 2015).
Neste contexto, os produtos naturais vêm recuperando espaço e importância na
indústria farmacêutica como fonte inspiradora de novos padrões moleculares bioativos. Na
Europa, a fitoterapia já é parte da medicina tradicional, sendo que extratos de plantas e
24
componentes ativos, além de produtos medicinais acabados, estão descritos em muitas
farmacopeias (VIEGAS JUNIOR et al., 2006).
O século XX apresentou um avanço extraordinário na pesquisa de produtos naturais,
especialmente de plantas e micro-organismos no campo da oncologia propiciando a
descoberta de diversas substâncias utilizadas atualmente na terapêutica antineoplásica10
. A
maioria dos fármacos anticâncer introduzidos na terapêutica nas últimas décadas tem sua
origem nos produtos naturais (LOTUFO et al., 2010), mostrando que essa fonte é muito
importante nos estudos de desenvolvimento de novos medicamentos (BRANDÃO et al.,
2012).
Atualmente, cerca de 60% dos agentes antitumorais e antibióticos disponíveis no
mercado ou em estágios de avaliação clínica são de origem natural. Nos últimos 10 anos,
aproximadamente 500 compostos químicos novos foram aprovados pelas instituições
reguladoras de todo o mundo. Dessas, em torno de 50% são de origem natural. Tais dados
evidenciam que o Brasil, que abrange grande fração da biodiversidade mundial, pode prover-
se deste patrimônio natural se esforços forem enviados para a pesquisa na descoberta de
potenciais produtos biotecnológicos desta biodiversidade (UNESP, 2015).
Tal biodiversidade disponibiliza inúmeras possibilidades para o desenvolvimento de
pesquisas que propiciem, simultaneamente, sua preservação, com base em seu conhecimento
mais detalhado, e inovação, por meio da descoberta de substâncias com potencial aplicação
nas indústrias química e farmacêutica (OLIVEIRA, 2013), objetivando a descoberta de novos
fármacos anticâncer de ocorrência natural em função da existência de um grande número de
espécies disponíveis para investigação (LOTUFO et al., 2010).
Com relação à linhagem de plantas, o Brasil se sobressai ao abrigar aproximadamente
20% das angiospermas, 20% das briófitas e 10% das pteridófitas conhecidas mundialmente,
compreendendo cerca de 43.020 espécies catalogadas. Essa diversidade de organismos denota
uma enorme diversidade biológica, adaptados às regiões fitoecológicas nas quais evoluíram
ao longo de milhões de anos (MMA, 2015).
Os estudos de plantas medicinais ainda não receberam grande destaque das agências
financiadoras no Brasil, embora haja uma massa crítica de pesquisadores qualificados nas
áreas de química e farmacologia (LEITE; OLIVEIRA FILHO, 2014). Apesar disso, grande
parte dos medicamentos encontrados no mercado é derivado direta ou indiretamente de
10
Antineoplásica é um tratamento que utiliza fármacos no organismo dos pacientes com o objetivo de combater
as células cancerosas, Agem como substâncias que são responsáveis por controlar a doença, podendo ser
utilizadas através de diversas vias (QUIMIOTERAPIA... 2015).
25
vegetais, micro-organismos, organismos marinhos, vertebrados e invertebrados terrestres
(BRANDÃO et al., 2012).
Metodologias recentes de isolamento e identificação de compostos de fontes naturais
têm propiciado aumento no número de novas estruturas químicas bioativas para inúmeras
indicações terapêuticas (BRANDÃO et al., 2012).
Sendo assim, com o início do século 21, a descoberta e desenvolvimento de novas
moléculas para tratamento médico, vem avançando graças a grande necessidade de novos
produtos naturais (MACHADO et al., 2015). Na área do câncer, os compostos desenvolvidos
têm tido fundamental importância, já que os produtos naturais respondem por
aproximadamente 60% de todas as moléculas desenvolvidas, sejam elas produtos naturais, ou
derivados destes (KINGHORN et al., 2011).
A síntese de produtos naturais bioativos tem evoluído aos poucos no Brasil e poderá
exercer um papel significativo na geração de novos fármacos, biocombustíveis, entre outros
(FELÍCIO et al., 2012). É nesse cenário que as cianobactérias tem representado uma fonte
valiosa de descoberta de novos compostos, estando entre os microorganismos mais antigos do
planeta, tendo assim desenvolvido um rico arsenal de vias biossintéticas para síntese de
metabólitos secundários, apresentando mecanismos únicos ou extremamente raros na natureza
(BLUNT et al., 2014).
Segundo Micallef (2014), a mineração de genoma permite a identificação e
caracterização de agrupamentos de genes de produtos naturais. No entanto, o número atual de
genomas de cianobactérias permanece baixo em comparação com outros filos. Há um esforço
recente para corrigir esse problema, aumentando o número de genomas sequenciados de
cianobactérias, permitindo a identificação de agrupamentos de genes biossintéticos para
estrutura de diversos metabólitos.
Enquanto alguns dos agrupamentos de genes biossintéticos identificados
correlacionam com metabólitos conhecidos, a mineração de genoma também destaca o
número e a diversidade dos grupos para os quais o produto é desconhecido, que são
conhecidos como agrupamentos de genes órfãos (MICALLEF, 2014).
Cada vez mais microrganismos patogénicos resistentes aos medicamentos estão se
tornando uma ameaça significativa para a saúde pública e os gasodutos de descoberta
farmacêutica não geram a quantidade de novos medicamentos necessários para o tratamento
de doenças de forma eficiente (MACHADO et al., 2015). É nesse contexto que as
ferramentas de predição de produtos naturais surgem, com o objetivo principal de auxiliar a
26
busca por novos compostos biológicos que auxiliem o tratamento de doenças e criação de
novos medicamentos.
A maioria das ferramentas de predição de produtos naturais utiliza a busca por
domínios NRPS e PKS que são famílias de enzimas responsáveis pela síntese de metabólitos
secundários com notável atividade biológica, atuando através do processamento de
aminoácidos (pequenos blocos de construção) para a estruturação de metabólitos mais
complexos, além de constituírem as principais classes de compostos de interesse
biotecnológico com ênfase na indústria farmacêutica (COUTO, 2014).
27
3. TRABALHOS CORRELATOS
Em estudos preliminares, foram identificados e selecionados quatro trabalhos da
literatura para estudos, sendo eles: Explorando Genomas de Cianobactérias para a Biossíntese
de Produtos Naturais; A Mineração de Genoma demonstra a ampla ocorrência de Clusters
Gênicos na Codificação de Bacteriocinas em Cianobactérias; A Mineração de Genoma revela
o potencial bioativo de bactérias gram-negativas marinhas; A Mineração de Genoma de
Produtos Naturais para o Agrupamento de Genes Biossintéticos da Subseção V de
Cianobactérias, que apresentam propostas semelhantes aos objetivos desta monografia.
3.1. EXPLORANDO GENOMAS DE CIANOBACTÉRIAS PARA A BIOSSÍNTESE DE
PRODUTOS NATURAIS
As cianobactérias são bactérias fotossintéticas que habitam uma vasta gama
de ecossistemas e apresentam uma imensa história evolutiva, além de serem capazes de
produzir uma grande variedade de produtos naturais que possuem potencial para desempenhar
determinadas funções ecológicas ou biológicas. Metabólitos secundários em cianobactérias
têm um impacto significativo no que se refere á saúde humana, tanto diretamente, como é o
caso da contaminação de reservatórios de água potável por um grupo de cepas tóxicas, quanto
indiretamente, através de seu potencial farmacêutico (MICALEFF et al., 2014).
Nesse contexto, surgiu a necessidade de realizar o sequenciamento de genomas de
cianobactérias, visando posteriormente encontrar possíveis produtos naturais que possam ter
alguma funcionalidade utilizada na indústrica, ou na criação de novos farmácos. Recentes
esforços de sequenciamento de genomas destacaram a importância de análises para a detecção
de agrupamentos de genes biossintéticos em produtos naturais.
Para auxiliar esse processo de detecção, recentemente, certo número de ferramentas
de bioinformática tem sido desenvolvido, a fim de prever a estrutura dos metabólitos
secundários produzidos principalmente no que se refere ao agrupamento de genes órfãos para
o qual o produto é desconhecido. O trabalho realizado por Melinda L. Micaleff e
pesquisadores, em 2014, teve como um de seus objetivos principais analisar a adequação
dessas ferramentas no que diz respeito a detecção de agrupamentos de genes biossintéticos em
cianobactérias. Por último, buscou explorar a possibilidade de caracterizar agrupamentos de
genes órfãos via expressão heteróloga.
28
Através de uma revisão apurada da literatura que reporta a presença ou ausência de
vias biossintéticas de produtos naturais em genomas de cianobactérias, estudos rigorosamente
centrados no rastreiamento com base no genoma constataram que as cianobactérias são
capazes de produzir uma gama de diferentes classes de produtos naturais, incluindo péptideos,
policetídeos, alcalóides, terpenos, ácidos graxos e compostos que absorvem radiação
ultravioleta, que compõem alguns dos objetos de busca desse trabalho.
Muitas das vias biossintéticas que codificam produtos naturais encontrados nesse
estudo foram originalmente identificados através da análise da sequência mais tradicional. A
análise da sequência do genoma subsequente demonstrou a distribuição dos caminhos entre as
espécies e gêneros e forneceu introspecções sobre sua evolução.
No que se refere a análises in silico, uma comparação dos resultados com base no
antiSMASH e no ClusterFinder revelou que o antiSMASH se destacou ao identificar
previamente clusters e domínios caracterizados, enquanto que o ClusterFinder identificou
consideravelmente mais agrupamentos não anotados e supostamente responsáveis pela
biossíntese de pequenas moléculas (CIMERMANCIC et al., 2014). Claramente, a melhor
abordagem para a mineração de genoma (que são interessadas em identificar uma ampla gama
de classes de fragmentação de produtos naturais) é a utilização de uma combinação de ambas
as ferramentas (MICALEFF et al., 2014).
Com exceção do antiSMASH e do ClusterFinder, a maioria das ferramentas de
mineração de genoma foram projetadas especificamente para identificar os domínios NRPS,
PKS ou híbridos NRPS/PKS de classes de agrupamentos de genes. Isto ocorre devido á alta
conservação e a natureza caracterizada de vias NRPS/PKS para agrupamentos no genoma.
Outros programas tais como o NP.searcher, CLUSEAN, ClustScan e ASMPKS são capazes
de pesquisar genomas inteiros (MICALLEF et al., 2014).
Esse estudo também apresentou testes com a ferramenta NaPDoS, que ao invés de
identificar agrupamentos de genes inteiros, tem como alvo especificamente
todos os domínios C e KS contidos em um genoma de consulta (ZIEMERT et al., 2012).
A ferramenta NaPDoS analisa as sequências identificadas por BLAST e filogenia
para avaliar se o domínio pode pertencer a um conjunto único e, portanto, ser
responsável por um produto natural exclusivo. Micaleff afirma que o usuário deve analisar
manualmente cada domínio identificado com o cluster gênico correspondente para determinar
o número de agrupamentos de genes presentes.
29
As ferramentas de bioinformática desenvolvidas para a análise de produtos naturais
em agrupamentos de genes são úteis para a análise de sequências do genoma. No entanto, em
geral, estas ferramentas foram concebidas com base na via arquitetural do actinomiceto e, em
muitos casos, grupos de genes de cianobactérias provam ser um desafio para estes programas,
exigindo análise adicional pelo pesquisador.
Enquanto genes biossintéticos são comuns em cianobactérias, estes conjuntos
codificam várias enzimas monofuncionais que são difíceis de identificar usando alguns
softwares atuais, como antiSMASH. O cluster scytonemin é incapaz de ser identificado por
antiSMASH e os agrupamentos da detecção de MAA utilizando programas de bioinformática
é dependente da arquitetura genética realizar o agrupamento em um organismo particular.
Enquanto algoritmos de previsão funcionam bem para domínios comuns e altamente
caracterizados, a identificação de mais agrupamentos de produtos naturais levou à descoberta
de muitas arquiteturas de domínios incomuns. Isto é particularmente verdadeiro em
cianobactérias, onde vários tipos de domínio, em especial os módulos de iniciação (Moore e
Hertweck, 2002), não podem ser reconhecidos usando a previsão atual por software.
Segundo Shih et al. (2013) e Wang et al.(2014), a natureza rara destes domínios
assegura que uma combinação de análise de bioinformática através de ferramentas manuais é
necessária para uma mineração de genoma eficaz. O aumento no número de agrupamentos de
cianobactérias identificadas e caracterizadas por produtos naturais de genes biossintéticos são
necessárias para melhorar a precisão das previsões de bioinformática no futuro.
Análises recentes de genomas de cianobactérias atualmente disponíveis previram o
potencial biossintético destes genomas para codificar agrupamentos de genes híbridos
NRPS/PKS. Enquanto métodos semelhantes são usados para identificar esses agrupamentos
de genes, existe uma grande discrepância entre o número e o tipo de agrupamentos de genes
de NRPS/PKS/híbridos entre as publicações (MICALEFF et al., 2014).
Por exemplo, Shih et al. (2013) previu Prochlorococcus marinus str. MIT 9313
codifica um agrupamento de genes de PKS, enquanto Wang et al. (2014) demonstrou que não
detectou um agrupamento de genes de PKS dentro do mesmo genoma.
Além disso, Jones et al. (2011) analisou os agrupamentos de genes órfãos em
domínios NRPS/PKS codificados dentro do genoma de M. producens 3L e identificou cinco
órfãos NRPS e agrupamentos de genes de PKS, para além do NRPS/PKS/híbrido de clusters
de genes de curacina A, barbamide e carmabin. No entanto, de Shih et al. (2013) previu 14
30
agrupamentos de genes que foram codificados dentro desse genoma de cianobactéria,
incluindo ambos os agrupamentos de genes conhecidos e órfãos.
Uma circustância que serve como base para afirmar a inconsistência desses dados é o
fato de diferentes pesquisadores realizarem mineração no mesmo genoma e encontrarem
resultados diferentes.
As diferenças do número de agrupamentos de genes biossintéticos hipotéticos
identificados entre estes estudos, destacam várias questões importantes acerca da mineração
do genoma de cianobactérias, incluindo metodologias inconsistentes e cut-offs11
usados para
distinguir um agrupamento de genes de biossíntese.
Segundo Micaleff et al. (2014), a dificuldade em validar experimentalmente
agrupamentos de genes de cianobactérias fez com que os pesquisadores confiassem
exclusivamente em previsões de bioinformática, limitando muitas vezes o conhecimento
acerca dos genes e domínios essenciais para a biossíntese de produtos naturais de
cianobactérias.
Para superar isto, o sequenciamento de genomas e o número de clusters identificados
deverão buscar o aumento da confiança em ferramentas de bioinformática. Além disso,
curadoria manual de todos os agrupamentos de genes identificados para os domínios
necessários devem sempre ser realizada para minimizar o número de falsos positivos
resultantes das identificações.
Esse trabalho também revelou que, embora haja um número de ferramentas de
bioinformática que podem ser empregadas especificamente para a análise de agrupamentos de
genes de produtos naturais, muitas delas são problemáticas quando utilizadas para a análise de
vias de cianobactérias. Isto deve ser levado em consideração na análise de agrupamentos de
genes de produtos naturais de cianobactérias, como a análise manual, como meio para realizar
a verificação e confirmação dos dados gerados por ferramentas.
Por fim, os avanços na expressão heteróloga de agrupamentos de genes de
cianobactérias irá fornecer evidências experimentais para desvio de cluster gênico genuíno
pode ser utilizado depois para reforçar previsões de bioinformática.
O trabalho de Micaleff apresenta técnicas e conclusões similares às desenvolvidas
nesse trabalho, como o fato de ter o objetivo central de explorar a adequação de algumas das
ferramentas mais comumente utilizadas para a predição de clusters gênicos em cianobactérias,
como o uso do antiSMASH; ClusterFinder; NP.searcher e NapDos, identificando o
11
Cut-off é um parametro utilizado em diversas buscas em ferramentas de bioinformática, significando o valor
de corte.
31
antiSMASH como uma das ferramentas mais completas na identificação de metabólitos
sedundários e o NapDos como uma ferramenta eficiente no que diz respeito a busca por
domínios C e KS.
3.2. A MINERAÇÃO DE GENOMA DEMONSTRA A AMPLA OCORRÊNCIA DE
CLUSTERS GÊNICOS NA CODIFICAÇÃO DE BACTERIOCINAS EM
CIANOBACTÉRIAS
As cianobactérias são uma fonte prolífica de peptídeos biologicamente ativos com
aplicações variadas. No trabalho realizado por Wang, Fewer e Sivonen, em 2011, foi
demonstrada a ocorrência generalizada de agrupamentos de genes de bacteriocinas em
cianobactérias. Estes agrupamentos de genes podem ser classificados em sete grupos de
acordo com a organização diversificada de domínios catalíticos dentro dos clusters. A
filogenética analisa apoiar a classificação do agrupamento de genes, e se mostrar
relativamente independente de histórias evolutivas. Apenas um pequeno número destes
agrupamentos irá codificar a maquinária enzimática necessária para formar lantioninas e
centenas de novos precursores de peptídeos com uma grande diversidade de núcleo.
Estruturas foram identificadas dentro destas regiões dos agrupamentos gênicos
pesquisados. Embora os produtos da maioria das proteínas precursoras sejam completamente
desconhecidos e ainda estejam aguardando verificação, não há nenhuma dúvida de que
cianobactérias estão emergindo como uma fonte prolífica de peptídeos pós-traducionalmente
modificados. A informação organizada apresentada nesse trabalho foi útil na obtenção de
mais informações acerca dos mecanismos da biossíntese de bacteriocinas. Além disso, este
estudo de bioinformática não só pretendeu melhorar a anotação do cluster gênico da
bacteriocina em cianobactérias, mas também complementou outras ferramentas ao descobrir
novas bacteriocinas.
Muitos peptídeos são os produtos finais de uma via não-ribossomal. No entanto,
recentemente várias classes de peptídeos de cianobactérias foram mostradas como produtos da
clivagem proteolítica e da modificação pós-traducional dos precursores de peptídeos
pequenos. Na pesquisa de Wang, Fewer, Sivonen (2011), uma nova classe de bacteriocinas
precursoras de proteínas foi identificada a partir de cianobactérias marinhas.
A fim de explorar o potencial genético para produção de bacteriocina de
cianobactérias, foram separados dados de 58 genomas de cianobactérias, sendo utilizados para
identificar a organização dos agrupamentos de genes de processamento de bacteriocina.
32
Surpreendentemente, eles descobriram por volta de 100 novos supostos agrupamentos
genéticos de genomas de bacteriocinas de quase todas as espécies de cianobactérias
examinadas.
Cerca de 300 precursores de genes hipotéticos foram codificados em estreita
proximidade com os agrupamentos de genes de bacteriocinas. Os resultados pesquisados por
eles demonstraram também a presença generalizada de agrupamentos de genes de
bacteriocinas em cianobactérias. A diversidade genética dos peptídeos centrais destes
precursores de bacteriocina é enorme, com poucas sequências em conservação.
Wang, Fewer, Sivonen (2011) utilizaram inúmeros procedimentos, metódos e
ferramentas para a elaboração dessa pesquisa, o primeiro deles foi a busca pelas linhagens de
cianobactérias. Dados genômicos de 58 linhagens de cianobactérias foram baixados a partir
do banco de dados GenBank (ftp://ftp.ncbi.nih.gov/GenBank/). As sequências de proteínas
destes genomas foram extraídas e formatadas para pesquisas BLAST locais.
A partir de três consultas adaptadas contendo arquivos com o formato FASTA,
sequências proteicas de genes de bacteriocinas sintetizadas foram construídos.
Sequências nestes dois arquivos foram coletadas a partir da base de dados de
domínios conservados do NCBI. Destas, 14 sequências no terceiro arquivo eram proteínas
LanM localizadas em cianobactérias.
Para a identificação da classificação de clusters gênicos, três arquivos de consulta
foram utilizados para pesquisa no banco de dados que contém todas as proteínas de
cianobactérias recolhidas de genomas. Acessos de proteína de BLASTp foram escolhidas
como candidatas e rotuladas nas sequências do genoma no formato GenBank, que foram
usadas para visualizar as organizações de genes que rodeiam proteínas candidatas usando o
software Artemis (http://www.sanger.ac.uk/science/tools/artemis) para identificação do grupo
de genes e comparação estrutural intensiva. Os componentes de domínios de proteínas
candidatas foram identificados por pesquisa por domínios conservados. Em seguida, os
agrupamentos de genes hipotéticos foram divididos em sete grupos, combinando as
informações da organização de genes e a composição do domínio.
Conforme apresentado na figura 4 os conjuntos dos genes identificados nesse estudo
foram classificados em sete grupos (de I a VII) com base na organização e composição do
gene de domínio. Tamanhos e direções de ORFs são mostrados numa escala relativa com a
cor e definição do precursor em vermelho, o ABC transportador em azul, o HlyD em laranja,
SurA em verde, LanM na cor rosa, além de conter proteína S8 peptidase em amarelo, outras
33
enzimas de modificação em roxo, ORFs adjacentes em preto e genes tRNA em verde claro.
Domínios envolvidos na produção e modificação de bacteriocina em cianobactérias são
demonstrados dentro de ORFs com cores diferentes, nomes de domínios são derivados a partir
do banco de dados de domínio conservado.
Figura 4: Organização dos agrupamentos de genes de cianobactérias. Fonte: Wang et al., 2011.
Para a identificação de genes precursores foram pesquisadas faixas de 20 Kb para os
sentidos 5' e 3' de cada agrupamento gênico. Pequenas ORFs e regiões intergênicas foram
verificadas manualmente, procurando o dobro de glicinas, oriundas de sequências GG
(guanina-guanina) presentes no peptídeo. Estes precursores previstos foram comparados com
famílias precursoras, através do BLASTp para a realização da classificação. Vários
alinhamentos de sequências foram realizadas com ClustalW. Logo, a frequência relativa de
aminoácidos em peptídeos líder região clivagem foram tiradas em linha WebLogo.
Características precursoras foram calculadas utilizando Pepstats12
.
Como resultados, foram mostradas a ocorrência generalizada de agrupamentos de
genes de bacteriocinas em cianobactérias, através da análise comparativa de 58 genomas de
cianobactérias. Um total de 145 agrupamentos de genes de bacteriocinas foi descoberto
através da mineração do genoma. Estes agrupamentos codificaram 290 precursores de
bacteriocina hipotéticos. Eles variaram em um comprimento de 28-164 aminoácidos com
12
Pepstats é uma metodologia utilizada para calcular estatísticas para as proteínas, tais como peso molecular,
ponto isoelétrico, etc (EMBL, 2015).
34
pouca conservação da sequência do peptídeo de núcleo, que é a parte responsável por exercer
a atividade biológica. Os agrupamentos de genes podem ser classificados em sete grupos de
acordo com a sua organização e a composição de gene de domínio. Nossos dados sugerem
que as cianobactérias são uma fonte prolífica de baixo peso molecular peptídeos modificados
após a tradução.
O trabalho de Wang, Fewer, Sivonen (2011), demonstrou algumas atividades
correlatas ás desenvolvidas nesse trabalho, especialmente as que antecederam a predição dos
clusters gênicos pelas ferramentas de predição de produtos naturais. Um exemplo é a
utilização da ferramenta BLAST para a extração de proteínas concernentes aos genomas para
pesquisas locais, assim como o uso do BLASTP, como uma das ferramentas de pesquisa. A
utilização do Artemis para visualizar grupos de genes, além da comparação estrutural dos
produtos também se apresentou como uma similaridade entre o trabalho desenvolvido por
Wang e o e presente trabalho.
3.3. A MINERAÇÃO DE GENOMA REVELA POTENCIAL BIOATIVO DE
BACTÉRIAS GRAM-NEGATIVAS MARINHAS
A resistência das bactérias aos antibióticos se espalha rapidamente, chegando a
ultrapassar o ritmo em que novos produtos são descobertos, enfatizando a necessidade
imediata de descobrir novos compostos para o controle de doenças infecciosas. Bactérias
terrestres têm sido investigadas por décadas como uma rica fonte de compostos bioativos que
conduzem a aplicações bem sucedidas nas indústrias farmacêuticas e de biotecnologia.
Até agora, bactérias marinhas não foram exploradas com a mesma intensidade. No
entanto, o trabalho de Machado et al. (2015), afirma que tais bactérias abrigam diversos novos
químicos bioativos. Para explorar este potencial, esse trabalho primeiramente apresentou os
genomas de 21 alfa e gamma proteobactérias que foram coletados durante a expedição
Galathea 3. Logo após, esses genomas foram sequenciados e analisados para a descoberta de
agrupamentos de genes que codificam produtos naturais.
Durante os últimos cinco anos, o trabalho de Machado et al. (2015) demonstrou que as
bactérias gram-negativas marinhas produzem uma série de compostos antibióticos e anti-
virulência. A partir desse trabalho fica a indagação se a abordagem clássica da bioprospecção
havia revelado plenamente o potencial destas bactérias.
35
Ao longo desse estudo, vários comentários forneceram uma comparação entre
diferentes ferramentas de bioinformática que realizam a predição de genes biossintéticos,
através da análise do seu modus operandi13
.
Nesse cenário, Machado et al. (2015), realizou um estudo in silico de diferentes
genomas marinhos bacterianos através de análises utilizando várias ferramentas de predição
desenvolvidas na identificação de produtos naturais. Logo, os genomas foram analisados
utilizando ferramentas de bioinformática para a identificação dos clusters envolvidos no
metabolismo secundário, tais ferramentas foram: antiSMASH, NapDos, NP.searcher e
BAGEL3. Através desses estudos, foi encontrado um alto potencial genético para produção de
metabólitos secundários também em bactérias marinhas gram-negativas.
A ferramenta antiSMASH foi utilizada para identificar vias de metabólitos
secundários, a ferramenta BAGEL3 foi usada para a identificação de bacteriocinas. Já a
ferramenta NapDos foi manuaseada para a apontar domínios de cetosintase14
(domínios KS) e
domínios de condensação15
(domínios C). Por fim, a ferramenta NP.searcher foi utilizada com
objetivo de identificar de agrupamentos de genes inteiros.
As análises utilizando NapDos e NP.Searcher, em geral, identificaram o mesmo
número de agrupamentos de potenciais genes bioativos.
Os resultados da mineração utilizando a ferramenta NapDoS demonstram que
Marinomonas sp. S3726 tem um grande potencial, com 6 domínios KS e 17 domínios C
identificados. Sendo assim, o único número obtido por uma dada ferramenta de análise pode
não refletir todo o potencial do organismo e análises complementares devem ser realizadas
para assegurar a descoberta completa do potencial bioativo.
Tal análise deve ser feita para que também possa evitar a continuação dos trabalhos
em agrupamentos que podem se tratar de falsos clusters de metabólitos secundários. Os
resultados da análise por NapDos e pela ferramenta NP.searcher pareciam identificar apenas
um subconjunto dos clusters NRPS/PKS que também foram identificados pela ferramenta
antiSMASH.
O número de clusters de bacteriocinas identificados por antiSMASH variou entre 1 e 5
em cada linhagem. No entanto, quando os genomas foram analisados utilizando a ferramenta
13
Modus operandi é o modo de operação de determinada ferramenta. 14
Domínios de cetosintase (domínio KS) são aqueles que catalisam a reação de elongação. 15
Domínios de condensação (domínio C) são aqueles que catalisam informações peptídicas.
36
de previsão BAGEL3, a presença de genes relacionados com a bacteriocina foi confirmada
apenas em algumas cepas.
Uma segunda análise das cepas de P. ruthenica utilizando a ferramenta antiSMASH
com base em probabilidades de domínio Pfam, aumentou o número de agrupamentos de genes
potenciais de 3 para 30.
A distribuição dos clusters de bacteriocina não seguiu um padrão particular no que diz
respeito aos gêneros ou espécies. Parece evidente que as ferramentas de previsão específicas
são mais precisas na identificação de seu alvo definido. Portanto, sendo BAGEL3
provavelmente um melhor indicador do número de genes relacionados com a bacteriocina do
que a própria antiSMASH.
Os principais métodos e ferramentas utilizadas nesse estudo, envolvem projetos de
genomas que foram anotados utilizando RAST e submetidos a análise de metabólitos
secundários com o agrupamento de genes usando antiSMASH 2.0, NapDos, NP.searcher,
bem como o software específico de bacteriocina BAGEL3.
Na mineração de genomas, a identificação de clusters provavelmente envolvidos no
metabolismo secundário, tal como NRPS e PKS têm sido usados como uma medida do
potencial para encontrar novos compostos bioativos naturais, incluindo antibióticos. No
entanto, todas as ferramentas de bioinformática utilizadas para pesquisar as capacidades
biossintéticas e potencial de P. ruthenica falharam (MACHADO et al., 2015).
Independentemente do tamanho do genoma de todos os gêneros de bactérias testadas,
um grande número de grupos que codificam diferentes potenciais bioativos foi encontrado.
Além disso, os elementos reguladores em vias relacionadas com bioatividade foram
investigados tanto in silico como in vitro.
Esse trabalho possibilitou uma compreensão maior acerca da manipulação destas
ferramentas que podem ajudar na descoberta e produção de novos compostos não
identificados em condições normais de cultivo em laboratório. O uso de ferramentas
complementares para a mineração do genoma é de grande valor no estreitamento dos
agrupamentos de genes potenciais de uma grande piscina obtido por software de previsão
larga tais como antiSMASH.
O trabalho desenvolvido por Machado et al. (2015), demonstrou técnicas para a
predição de produtos naturais sendo algumas também desenvolvidas nesse trabalho, como o
uso das ferramentas in silico para auxiliar o processo de mineração de genomas, também
utilizando a ferramenta antiSMASH para identificação de vias metabólicas e a ferramenta
37
NapDos para encontrar domínios C e KS. Vale ressaltar também, o fato de ambos os trabalhos
utilizarem o antiSMASH alinhado a busca Pfam e o NP.searcher para a detecção de
agrupamentos de genes inteiros. Contudo, o presente trabalho não realizou a identificação de
bacteriocinas com a ferramenta BAGEL3, e sim com a ferramenta antiSMASH.
3.4. A MINERAÇÃO DE GENOMA DE PRODUTOS NATURAIS PARA
AGRUPAMENTOS DE GENES BIOSSINTÉTICOS NA SUBSEÇÃO V DE
CIANOBACTÉRIAS
Projetos recentes de sequenciamento de genomas levaram a um aumento no número de
cianobactérias com genomas publicamente disponíveis. Contudo, o potencial de metabólitos
secundários de muitos destes organismos ainda permanece indefinido (MICALEFF et al.,
2015).
Nesse contexto, o estudo realizado por Micallef et al. (2015) se concentrou em 11
genomas que estão disponíveis publicamente na Subseção V de cianobactérias, juntamente
com os projetos de genomas de Westiella intricata UH linhagem HT-29-1 e Hapalosiphon
welwitschii UH IC-52-3, devido seu potencial genético para produzir metabólitos secundários.
Os genomas das cianobactérias da Subseção V analisados neste estudo foram relatados para
produzir uma gama diversificada de produtos naturais.
A descoberta por novas fontes de produtos naturais se deu em virtude dos recentes
esforços para aumentar o sequenciamento de genomas. Antes de 2013, a Subseção V foi
significativamente representada em comparação com as outras subseções de cianobactérias
em quantidade de genomas sequenciados. Dois projetos recentes de sequenciamento de
cianobactérias destinadas a aumentar o número de genomas da Subseção V ocasionaram em
um aumento significativo no número de genomas (MICALEFF et al., 2015).
Atualmente, existem 11 genomas publicamente disponíveis na Subseção V de
cianobactérias, mais especificamente: Fischerella sp. PCC 9339, Fischerella sp. PCC 9431,
Fischerella sp. JSC-11, Fischerella sp. PCC 9605, Fischerella muscicola PCC 7414,
Fischerella muscicola SAG 1427-1, Fischerella thermalis PCC 7521, Mastigocladopsis
repens PCC 10914, Chlorogloeopsis fritschii PCC 6912, Chlorogloeopsis sp. PCC 9212 e
Mastigocoleus testarum BC008.
Uma análise mais profunda em domínios NRPS/PKS de clusters gênicos revela que a
porcentagem do genoma dedicado a esses agrupamentos de genes é maior na Subseção V do
que em outras subseções de cianobactérias (CALTEAU et al., 2014).
38
O trabalho apresentado por Micaleff et al. (2015), expõe os agrupamentos de genes
conhecidos e genes órfãos pertencentes aos domínios NRPS/PKS, PRPS, absorção de UV,
além de classes de hidrocarbonetos e terpenos de produtos naturais. Esse trabalho é o primeiro
estudo que incluiu a identificação e análise de agrupamentos de genes de todas as classes
estruturais de produtos naturais nos genomas de cianobactérias da Subseção V.
Como início do desenvolvimento desse estudo, todas as sequências nucleotídicas
foram obtidas a partir do sequenciamento do genoma pela plataforma Ilumina, já a anotação
de ORFs, o sequenciamento de resultados utilizando produtos PCR e sequências nucleotídicas
dos genomas W. intricata UH linhagem HT-29-1 e H. welwitschii UH IC-52-3 foram
organizadas e visualizadas utilizando a ferramenta Geneious (versão 6.1.7) criada pela
Biomatters (disponível a partir de http://www.geneious.com/).
Os 11 genomas de cianobactérias da Subseção V estão disponíveis publicamente a
partir de repositórios do NCBI ou do servidor DOE Joint Genome Institute (JGI). Os
alinhamentos das sequências de nucleotídeos de genes individuais e de clusters gênicos foram
realizados utilizando Geneious com configurações predefinidas. Para alinhamentos de
proteína, foi utilizada a ferramenta Clustal Omega (versão 1.2.1) com as configurações
padrões.
Agrupamentos de genes hipotéticos de metabólicos secundários foram identificados
utilizando a ferramenta antiSMASH versão 2.0 com os parâmetros padrões. As anotações
foram refinadas manualmente usando CDsearch e para a identificação de domínios
conservados foi utilizada a ferramenta BLASTp (Basic Local Alignment Search Tool).
A princípio, cada grupo de genes biossintéticos foi classificado conforme o tipo de
produto natural codificado dentro do grupo de genes. A genômica comparativa identificou
agrupamentos homólogos em genomas de cianobactérias da Subseção V e a organização de
tais genes foi comparada. Agrupamentos de genes homólogos em múltiplos genomas também
foram identificados utilizando a ferramenta COG em IMG JGI.
A organização de grupos de genes de domínio NRPS e PKS identificados por
antiSMASH foi analisada usando a base de dados NRPS/PKS, já as enzimas NRPS foram
previstas utilizando a ferramenta NRPSpredictor2. Além disso, o NaPDoS foi usado para
identificar domínios KS e C. A análise bioinformática de agrupamentos de genes NPRS,
cianobactinas, microviridinas e agrupamentos de genes biossintéticos de bacteriocinas foram
inicialmente identificados usando antiSMASH. Em seguida, a ferramenta BLASTp foi usada
para determinar o potencial falso e positivo (cianobactina e microviridina) ou agrupamentos
39
adicionais de genes (bacteriocina). Alinhamentos de proteína precursores de peptídeos foram
realizados utilizando Clustal Omega.
O domínio sulfotransferase, característica da via de sintase de olefina (OLS), foi
utilizado na análise BLASTp. Agrupamentos de genes biossintéticos de terpenos foram
identificados e agrupados de acordo com a presença de genes comuns utilizando a ferramenta
antiSMASH, além de serem comparados para identificar terpeno e agrupamentos de genes
biossintéticos de esqualeno.
Tal estudo revelou que existe a possibilidade de identificar novos produtos de
agrupamentos de genes de biossíntese previamente identificados, tais como os agrupamentos
de genes hap ou PCM. Portanto, a caracterização de esses agrupamentos de genes
biossintéticos tem o potencial de conduzir para a identificação de análogos de produtos
naturais com bioatividades reforçadas (MICALEFF et al., 2015).
Os agrupamentos de genes foram organizados em seis grupos, como pode ser
observado na figura 5, com base na presença de clusters gênicos.
40
Figura 5: Exemplos de grupos de genes de bacteriocina da Subseção V de cianobactérias. Fonte: Micaleff
et al., 2015.
A figura acima descreve seis grupos diferentes, que foram classificados de acordo com
Wang et al. (2011) e identificados a partir de cianobactérias da Subseção V. Os genes que
compõem o grupo I foram identificados a partir da W.intricata UH linhagem HT-29-1. Já no
grupo II o agrupamento mostrado foi referente a M.repens PCC 10914. Os agrupamentos de
genes dos grupos III e IV foram identificados a partir da H.welwitschii UH linhagem IC-52-3.
O agrupamento de gene da subseção V, foi identificado a partir do genoma da
Fischerella sp. PCC 9431. Por fim, o cluster gênico do grupo VI foi identificado a partir
Fischerella sp. PCC 9605. Os genes hipotéticos precursores são representados por uma seta
vermelha, os genes que representam o HlyD possuem a seta laranja como idenficador, genes
SurA são representados pela seta verde, genes ABC transportadores estão representados por
uma seta verde, outras enzimas de modificação são representados pela seta roxa, genes
peptidase S8 são representados pela seta amarela e genes LanM são representados pela seta
41
rosa. Domínios envolvidos na produção de bacteriocina de cianobactérias e modificação são
destacados no âmbito de cada gene.
Quase todos os grupos de genes de bacteriocina identificados a partir da Subseção V
também codificavam um grande número de sequências curtas de peptídeos, seja dentro ou
localizados nas extremidades dos agrupamentos de genes de bacteriocina, em adição aos tipos
conhecidos de precursores. Estas sequências peptídicas curtas podem codificar peptídeos de
precursores para a biossíntese de bacteriocinas.
Caracterizações futuras relacionadas á funcionalidade destes peptídeos precursores
irão determinar se estas sequências são parte dos agrupamentos de genes identificados a partir
de bacteriocinas da Subseção V de cianobactérias (MICALEFF et al., 2015).
A mineração do genoma revelou a diversidade, abundância, natureza complexa e
potencial dos metabólitos secundários da Subseção V. Este estudo de bioinformática
identificou agrupamentos de enzimas biossintéticas que não foram associados com conjuntos
de genes de classes conhecidas de produtos naturais, sugerindo que essas cianobactérias
potencialmente possam produzir metabólitos secundários estruturalmente novos.
O trabalho proposto por Micaleff et al. (2015), apresentou a utilização de ferramentas
com os mesmos objetivos das utilizadas nesse trabalho, como o antiSMASH para a encontrar
genes hipotéticos e outros tipos, além do uso de BLASTp para identificar domínios
conservados e a ferramenta NapDos para a identificação de domínios C e KS. Contudo, como
diferença pode ser apresentado o uso de ferramentas diferentes para a visualização das
sequências, no trabalho de Micaleff a ferramenta utilizada foi o Geneious e o presente
trabalho realizou a visualização da sequência através da ferramenta Artemis.
42
4. MATERIAIS E MÉTODOS
Neste capítulo, apresenta-se a metodologia aplicada no planejamento e execução do
presente trabalho. Antes de começar a avaliação dos softwares de predição, foram definidos os
resultados esperados juntamente com a equipe de pesquisadores do Laboratório de Tecnologia
Biomolecular LTB da Universidade Federal do Pará, campus Belém. Participaram destas
reuniões iniciais na primeira semana de julho de 2015: a autora deste trabalho, a professora
Dr.ª Daniele Costa Carrara Couto, o professor Ms. Alex Ranieri Jerônimo Lima e o
pesquisador Dr. Evonnildo Costa Gonçalves.
Após a definição dos objetivos iniciou-se a busca por literaturas que auxiliassem no
processo de predição de clusters gênicos. Então, utilizando essas literaturas, foram escolhidas
as ferramentas e os requisitos que seriam necessários para configurar os softwares que seriam
utilizados durante o processo, assim como os genomas que seriam utilizados como insumos
para as mesmas.
Nesse cenário, foi proposto um pipeline para a modelagem do processo. De acordo
com a análise feita na etapa anterior foi construído um modelo conceitual no qual foram
escolhidas as ferramentas e sua organização para extrair as informações necessárias ao
processo de predição de clusters gênicos.
De modo geral, o presente trabalho descreve a utilização de ferramentas de bioinformática
possuindo como entrada alguns genomas de cianobactérias, objetivando demonstrar os resultados
encontrados pelas ferramentas, assim como a comparação dos resultados pelas ferramentas de
mesma categoria.
4.1. FERRAMENTAS DE PREDIÇÃO DE PRODUTOS NATURAIS
O conjunto de dados de genomas microbianos e dados metagenômicos que foram
tornados públicos vem aumentando exponencialmente. Portanto, a mineração de genomas
tornou-se uma ferramenta extremamente atraente para a descoberta de novos medicamentos.
Tal fator ocasionou o desenvolvimento de novos instrumentos de bioinformática, que em
geral, são utilizados para rastrear e identificar bioatividades, incluindo agrupamentos gênicos
responsáveis pela produção das novas moléculas (MACHADO et al., 2015).
Novas ferramentas de bioinformática são necessárias para analisar o crescente volume
de dados de sequências de DNA. Isto é especialmente verdade no caso da biossíntese de
metabólitos secundários, quando a natureza altamente repetitiva dos genes associados cria
desafios para a montagem precisa e análise de sequência (ZIEMERT et al., 2012). No entanto,
43
em alguns casos, a complexidade das vias de cianobactérias torna problemática a predição
(MICALLEF et al., 2014).
Geralmente, as ferramentas de bioinformática utilizadas dependem diretamente do
objetivo e especificidade da pesquisa, isto é, se o investigador está tentando identificar todos
os agrupamentos de genes possíveis dentro de um organismo, um agrupamento específico de
genes de interesse, ou um substrato hipotético incorporado por um domínio específico. Uma
vez que a pesquisa no programa foi concluída, é essencial para o usuário verifique
manualmente a saída para determinar se os agrupamentos de genes identificados são genuínos
e se podem fazer parte do grupo de genes de biossíntese (MICALLEF et al., 2014).
Sendo assim, cada ferramenta in silico possui características e objetivos específicos, é
incumbência do usuário escolher o tipo ou combinação de ferramentas com base em seus
requisitos específicos para obtenção de ótimos resultados. Algumas ferramentas de predição
de produtos naturais são descritas a seguir.
4.1.1. antiSMASH
A Mineração de Genoma e dos seus agrupamentos de genes biossintéticos tornou-se
um método essencial para acelerar a sua identificação e caracterização. Metabólitos
secundários microbianos são uma fonte potente de antibióticos e outros produtos
farmacêuticos (COUTO, 2014).
Atualmente, uma das ferramentas mais comumente utilizada para analisar o potencial
de metabólitos secundários de sequenciamento de genomas é a ferramenta antiSMASH
(Antibiotics and Secondary Metabolite Analysis Shell) (BLIN et al., 2013).
É com o objetivo de automatizar esse processo que foi desenvolvido o antiSMASH,
uma plataforma de análise baseada na web. A liberação da versão antiSMASH 2.0, disponível
em (http://antismash.secondarymetabolites.org/), foi praticamente refeita usando um conceito
plug-and-play, proporcionando facilidade na integração de novos módulos de previsão ou de
saída. Atualmente, o antiSMASH já está na versão 3.0.4 que ainda está sendo consolidada e
sua interface pode ser observada através da figura 6.
O antiSMASH possui uma interface web com usuário e pode identificar até 24 grupos
classes. É extremamente amistosa, visto que uma consulta pode ser apresentada, logo que um
genoma sequenciado recentemente tenha sido montado (MICALLEF et al., 2014).
44
O algoritmo para a previsão da estrutura do núcleo do produto final aglomerado é
agora também abrange lantipeptideos, além de policetideos e os péptideos não ribossômicos.
A funcionalidade antiSMASH ClusterBlast foi ampliada para identificar sub-grupos
envolvidos na biossíntese de blocos de construção químicos específicos (COUTO, 2014).
Atualmente, os novos recursos fazem do antiSMASH 2.0 a ferramenta mais abrangente para
identificar e analisar novas vias biossintéticas metabólicas secundárias em microorganismos
(BLIN et al., 2013).
Figura 6: Página inicial da plataforma antiSMASH. Fonte: antiSMASH, 2015.
4.1.2. NP.searcher
A ferramenta NP.searcher (Figura 7) foi desenvolvida com o objetivo de digitalizar
genomas microbianos rapidamente para agrupamentos de genes biossintéticos de metabólitos
secundários, gerando como resultado uma saída candidata de NRPS/PKS de produtos naturais
em formato SMILES, permitindo assim a decodificação imediata do DNA para produzir
estruturas 2D e 3D em software amplamente disponível (COUTO, 2014). Com o
desenvolvimento das tecnologias de sequenciamento de genomas mais rápidos e mais baratos,
45
NP.searcher pode ser cada vez mais útil para a avaliação rápida de drogas candidatas a
produtos naturais adequados diretamente da informação genômica (LI et al., 2009).
Figura 7: Página inicial do sistema NP.searcher. Fonte: NP.searcher, 2015.
4.1.3. NaPDoS
O NaPDoS (Natural Product Domain Seeker) é uma ferramenta web que fornece um
método automatizado para avaliar a diversidade de genes biossintéticos de metabólitos
secundários. Suas análises são baseadas nas relações filogenéticas de sequências derivadas de
genes PKS (Polyketide Synthase) e NRPS (Non-ribosomal Peptide Synthetase),
respectivamente. Os marcadores de sequências correspondem a domínios cetosintases
derivados de PKS e domínios de condensação-NRPS que são comparados com uma base de
dados interna de genes biossintéticos experimentalmente caracterizadas (ZIEMERT et al.,
2012).
O banco de dados do NaPDoS, fornece um mecanismo para inferir as estruturas
generalizadas de metabólitos secundários, enquanto novas linhagens filogenéticas fornecem
metas para a descoberta de novas arquiteturas ou mecanismos de montagem de metabólitos
secundários de enzimas (COUTO, 2014).
46
Em suma, o NaPDoS, analisa as sequências identificadas por BLAST e filogenia para
avaliar se o domínio pode pertencer a um conjunto único e, portanto, podendo ser responsável
por um produto natural único (MICALLEF et al., 2014). A interface do NaPDoS é
apresentada através da figura 8.
Figura 8: Página inicial da ferramenta NaPDoS. Fonte: NaPDoS, 2015.
4.1.4. DoBISCUIT
Metabólitos secundários produzidos por bactérias muitas vezes mostram atividades
farmacologicamente importantes e podem servir como compostos de chumbo ou candidatos
para o desenvolvimento de drogas. A biossíntese de cada metabólito secundário é catalisada
por uma série de enzimas, geralmente codificadas por um cluster gênico. Apesar de muitos
47
trabalhos científicos descreverem tais agrupamentos de genes, as informações genéticas nem
sempre são descritas de forma global e as referências relacionadas raramente são integradas.
O DoBISCUIT (Figura 9) foi criado para tentar solucionar tais dificuldades, tendo
como principais funções a integração das informações mais recentes da literatura, além de
fornecer descrições de genes, módulos e domínios padronizados relacionados com os
agrupamentos genéticos (ICHIKAWA et al., 2013).
Figura 9: Página inicial do banco de dados DoBISCUIT. Fonte: DoBISCUIT, 2015.
A versão atual do DoBISCUIT possui como foco a concentração em metabólitos
secundários derivados de bactérias. Os dados fundamentais do DoBISCUIT são baseados em
entradas INSDC descrevendo cada cluster biossintético de um metabólito secundário
bacteriano conhecido. A coleta de dados começou a partir de uma ampla revisão da literatura,
que relata as descobertas de aglomerados de biossíntese. Os artigos foram coletados do
PubMed usando o termo de pesquisa ―biosynthesis cluster‖. Os números de acesso
correspondentes INSDC foram extraídos dos termos ou através da pesquisa GenBank
utilizando o nome de cada composto (COUTO, 2014).
48
Logo, muitos dos projetos de genomas atuais pretendem descobrir ou investigar
metabólitos secundários produzidos por bactérias e o DoBISCUIT é eficaz na identificação in
silico de clusters biossintéticos de sequências de genomas. As ferramentas web que
identificam domínios em proteínas NRPS/PKS propõem agrupamentos biossintéticos
semelhantes aos do DoBISCUIT. Entretanto, na próxima fase da mineração de genomas, os
usuários descobrem muitas vezes que a informação não pode ser obtida de forma eficiente a
partir de entradas INSDC sugeridas (ICHIKAWA et al., 2013).
Sendo assim, o DoBISCUIT se difere das outras ferramentas devido o fato de
fornecer anotação funcional de cada gene e uma coleção abrangente de referências. Usando
um módulo de pesquisa, os usuários podem obter uma lista de CDSs16
contendo a mesma
composição de domínio como a sua própria, além de integrar as informações mais recentes da
literatura e fornecer descrições gene/módulo/domínio padronizados relacionados com os
agrupamentos de genes (COUTO, 2014).
4.1.5. ClusterFinder
O ClusterFinder é uma ferramenta que foi recentemente desenvolvida. Devido esse
fator, o interesse da comunidade mais ampla de mineração do genoma para utilizar esta
ferramenta ainda é desconhecido (CIMERMANCIC et al., 2014). Embora os agrupamentos
de genes biossintéticos (BGCs) tenham sido descobertos devido centenas de metabólitos
bacterianos, o conhecimento de sua diversidade continua a ser limitado. É nesse cenário que o
ClusterFinder atua como uma ferramenta que se caracteriza como um algoritmo para
identificar BGCs sistematicamente, visto a grande quantidade de dados de sequenciamento
microbianos existentes. Sendo assim, o algoritmo ClusterFinder detecta BGCs tanto das
classes conhecidas como das classes desconhecidas (CIMERMANCIC et al., 2014).
Essa ferramenta baseia-se exclusivamente nas frequências de domínio Pfam obtidas a
partir de 732 agrupamentos de genes com curadoria manualmente e tenta identificar ambas as
classes conhecidas e desconhecidas de moléculas (CIMERMANCIC et al., 2014). Algumas
desvantagens do ClusterFinder em comparação com o antiSMASH entre outras ferramentas,
incluem a experiência de interface de linha de comando e a necessidade do genoma de
interesse ter sido previamente carregado para JGI (Joint Genome Institute), além de anotados
manualmente com curadoria para obter o arquivo de entrada necessário (MICALLEF et al.,
2014).
16
CDS é um trecho de uma sequencia de DNA que codifica proteínas.
49
4.2. CIANOBACTÉRIAS
A resistência das bactérias aos antibióticos se espalha rapidamente, chegando a
ultrapassar o ritmo em que novos compostos são descobertos, enfatizando a necessidade
imediata de descobrir novos compostos para o controle de doenças infecciosas. Nesse
contexto, as bactérias têm sido investigadas por décadas como uma fonte de compostos
bioativos que conduzem a aplicações bem sucedidas em indústrias farmacêuticas e de
biotecnologia (MACHADO et al., 2015).
O filo das cianobactérias consiste em bactérias fotossintéticas que são conhecidas por
sua capacidade de sobreviver em diversos tipos de ambientes, exibindo uma morfologia
variada. Os genes que codificam produtos naturais biossintéticos geralmente são agrupados no
genoma, auxiliando na previsão estrutural do metabólito baseado na análise através da
bioinformática (MICALEFF et al., 2015) .
As cianobactérias compõem uma fonte rica de produtos naturais com atividades
biológicas interessantes (WANG et al., 2011). Por sua capacidade de produzir uma grande
variedade de substâncias de interesse biotecnológico, as cianobactérias ganham cada vez mais
destaque em diversas áreas de estudo. Contudo os dados biológicos provenientes do
conhecimento genômico são relativamente complexos em comparação aos oriundos de outras
áreas científicas (COUTO, 2014).
Através da sequência genômica de uma cianobactéria é possível construir modelos
metabólicos e utilizá-los como mapas para explorar o potencial biotecnológico contido nesses
genomas. Com o aumento da busca pelo uso de cianobactérias no ramo bioindustrial, surge a
necessidade de explorar a diversidade desses microrganismos, procurando identificar aqueles
que podem ser naturalmente mais adequados às condições desejadas, descobrindo genes que
geram produtos mais eficazes, acarretando em mais produtividade (LIMA, 2015).
A mineração dessas sequências de genoma permite a identificação e caracterização de
agrupamentos de genes de produtos naturais. No entanto, o número atual de genomas de
cianobactérias permanece baixo em comparação com outros filos. Contudo, há um esforço
recente para corrigir esse problema, aumentando o número de genomas sequenciados de
cianobactérias, permitindo a identificação de agrupamentos de genes biossintéticos para
estrutura de diversos metabólitos. Enquanto alguns dos agrupamentos de genes biossintéticos
identificados correlacionam com metabólitos conhecidos, a mineração de genoma também
destaca o número e a diversidade dos grupos para os quais o produto é desconhecido
(MICALLEF, 2014).
50
4.2.1. Genomas Utilizados
Nesse projeto foram selecionados três genomas: Cyanobium sp. CACIAM 14 que
constituí o primeiro genoma de uma cianobactéria amazônica completamente sequenciado ,
Synechocystis sp. CACIAM 05 draft do genoma amazônico cujo sequenciamento ainda está
em andamento e Synechocystis sp. PCC 6803.
A cianobactéria unicelular Cyanobium sp. CACIAM 14, foi separada a partir de uma
amostra de água coletada em Dezembro de 2010 na Usina Hidrelétrica de Tucuruí 3 ° 49'55
"S, 49 ° 38'50" W , no Estado do Pará, Brasil.
Os pesquisadores do LTB da Universidade Federal do Pará realizaram o
sequenciamento da cepa CACIAM 14 através da plataforma 454 GS FLX Roche Life
Science , onde foram submetidas duas culturas independentes para o sequenciador, as quais
foram cultivadas num intervalo de tempo de 6 meses. Os conjuntos de dados foram montados
separadamente com a ferramenta Newbler versão 2.6 tamanho mínimo de leitura, 45 pb;
sobreposição mínima, 40 pb; mínimos de identidade sobreposição, 90% .
Os contigs da CACIAM 14 foram identificados e separados utilizando um pipeline
metagenômico para a montagem de cada organismo hipotético, ou seja, a cianobactéria
isolada e a sua bactéria heterotrófica associada. Os contigs montados a partir da segunda
corrida foram usados para determinar a cobertura genoma. Já a anotação estrutural foi
realizada com a ferramenta PGAP Prokaryotic Genome Annotation Pipeline que está
disponível no NCBI LIMA, 2015 .
Atualmente a análise da cepa CACIAM 05 ainda está em andamento pelos
pesquisadores do Laboratório de Tecnologia Biomolecular da UFPA. Como ferramenta de
sequenciamento, está sendo utilizada a plataforma Illumina MiSeq, gerando bibliotecas de
leituras pareadas do tipo 2x151. As leituras obtidas através do sequenciamento da cepa
CACIAM 05 foram verificadas levando em consideração a qualidade phred através do
programa FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ . A ferramenta
utilizada para a montagem do genoma está sendo o Newbler versã0 3.0 tamanho mínimo de
leituras, 30 pb; sobreposição mínima, 20 pb; identidade mínima da sobreposição, 80% . As
sequências e os scaffolds17
são classificados taxonomicamente pela ferramenta MEGAN
versão 5 http://ab.inf.uni-tuebingen.de/software/megan/ . Por último, os scaffolds de
interesse foram selecionados e submetidos para anotação no servidor RAST
http://rast.nmpdr.org/ .
17
Scaffolds são agrupamentos de contigs, ou seja, podem ser considerados supercontigs.
51
Por último foi utilizada como insumo nesse projeto a cianobactéria unicelular
fotossintética Synechocystis sp. PCC 6803, que está disponível na plataforma NCBI
http://www.ncbi.nlm.nih.gov/nuccore/NR_076327.1 . Tal cianobactéria é definida como um
organismo modelo devido esse fator foi selecionada para a realização de análises e testes.
4.2.2. Formatos de Arquivos de Genomas
Um arquivo é uma unidade lógica (ou entrada) nos sistemas de arquivos. É função do
sistema operacional apresentar ao usuário um amigável e limpo modelo abstrato de arquivos
independentemente de dispositivo (TANENBAUM, 2000).
No contexto de arquivos biológicos, existem diversos tipos de arquivos comumente
utilizados para estudos in silico de sequências biológicas. Os dois formatos de arquivos de
armazenamento de informações biológicas mais utilizados para armazenar sequências e
anotações são, respectivamente, o formato FASTA e o formato GenBank (gbk). De acordo
com Guizelini (2010), o formato fasta é utilizado tanto para sequências de nucleotídeos e
quanto para sequências de aminoácidos, enquanto que o formato gbk possui as sequências, assim
como suas respectivas anotações, que são informações de elementos biológicos como regiões
codificantes, elementos móveis, tRNA, rRNA, que são associadas à um trecho da sequência.
4.2.2.1. Formato FASTA
O arquivo fasta é relativamente simples e compreende um conjunto de sequências que
são divididas pelos headers e sequences, de modo que para cada sequência existe um
cabeçalho (header) e a sequência (sequence) propriamente dita. As informações são
organizadas em um arquivo texto que normalmente possui até sessenta colunas. Cada
sequência pode ter uma linha de cabeçalho e várias linhas para compor as sequências. A linha
de cabeçalho é indicada através da presença do símbolo de maior (>) na primeira coluna
(COUTO, 2014). A Figura 10 apresenta um trecho contendo o conteúdo de um arquivo fasta.
14.
52
Figura 10: Trecho de um arquivo FASTA referente a cianobactéria Cyanobium sp. CACIAM 14. Fonte:
NCBI, 2015.
4.2.2.2. Formato GBK
Sobre a estrutura de um arquivo no formato GenBank, existe uma divisão interna
identificada pela posição dos textos nas respectivas colunas, na qual cada linha é composta
por duas partes. A primeira parte, com a extensão gbk, que contém as informações do
cabeçalho e a segunda parte que é onde se encontram as informações que a comunidade
científica procura, ou seja, as sequências genômicas e as respectivas anotações. Essa segunda
parte do arquivo é conhecida por “entry” e representa um registro ou ―entrada‖ no banco de
dados GenBank (GUIZELINI, 2010).
O formato gbk é popular e possui distribuição, acesso e manutenção facilitados, porém
a extração de informação e a análise podem necessitar do auxílio de ferramentas
53
especializadas para facilitar o processo de leitura e análise. Na figura 11 é possível visualizar
um exemplo de trecho um arquivo no formato Genbank.
Figura 11: Trecho de um arquivo GBK referente a cianobactéria Cyanobium sp. CACIAM 14.
Fonte: NCBI, 2015.
Como observado na figura 11, arquivos gbk possuem diversos campos além do nome e
da sequência. Abaixo, são apresentadas as definições de alguns campos de um arquivo gbk:
LOCUS: Identifica a primeira linha de uma entrada e um nome curto mnemônico que
é escolhido para sugerir a definição da sequência.
DEFINITION: Uma descrição concisa da sequência.
ACCESSION: É uma chave de acesso única que não se altera.
54
VERSION: O campo versão é composto por duas unidades; à primeira unidade é
composta pelo número de acesso e o número incremental da versão. Já a segunda
unidade contém um número de identificação interna do NCBI para a sequência,
KEYWORDS: Frases curtas que descrevem os produtos dos genes ou outras
informações sobre a entrada.
SOURCE: Nome do organismo ou nome mais frequentemente visto na literatura.
ORGANISM: Nome científico formal do organismo e níveis de classificação de
taxonomia.
REFERENCE: Citações para todos os artigos que contêm dados sobre a determinada
entrada (arquivo gbk).
AUTHORS: Lista dos autores da citação.
TITLE: Título completo da citação.
JOURNAL: Nome do periódico, volume, ano e páginas onde foi publicado.
COMMENT: Comentários, anotações, comparações e alterações relacionadas á
sequência.
4.3. PIPELINE
Com objetivo de modelar o processo, um pipeline foi proposto, através dele foram
escolhidas as ferramentas, assim como a sua ordem de execução para organizar a extração das
informações necessárias ao processo de predição. O modelo do pipeline pode ser observado
através da figura 12.
55
Figura 12: Pipeline de Predição de Clusters Gênicos. Fonte: Elaborada pelo autor.
A primeira etapa para a execução do fluxo proposto pelo pipeline mostrado na figura
12 é composta pela entrada de dados, foram selecionadas três cianobactérias convertidas em
arquivos de formato fasta ou gbk. Tais arquivos foram executados na ferramenta antiSMASH
local versão 2.0 para identificar vias metabólicas secundárias. Logo após os mesmos arquivos
foram executados no antiSMASH online versão 3.0.2 figura 13 .
56
Figura 13: Parâmetros utilizados na execução do antiSMASH online. Fonte: antiSMASH, 2015.
Logo após, os arquivos gbk e fasta foram executados na ferramenta NP.searcher versão
local e posteriormente também na versão online. A última ferramenta utilizada na primeira
fase de execução do pipeline foi a ferramenta JemBoss
http://emboss.sourceforge.net/Jemboss/ , essa ferramenta é comumente utilizada para vários
fins na bioinformática e nesse trabalho essa ferramenta foi utilizada para extrair as CDS dos
arquivos biológicos.
As CDS obtidas a partir da corrida na ferramenta JemBoss foram posteriormente
utilizadas como entrada para os programas NapDos figura 14 e DoBiscuit.
57
Figura 14: Parâmetros utilizados na execução do NapDos online. Fonte: NapDos, 2015.
Como pode ser observado no pipeline, a visualização dos resultados gerados pelas
plataformas antiSMASH, NP.searcher, NapDos e DoBiscuit foi observado através da
ferramenta Artemis versão 16.0.0 figura 15 , na qual foi possível observar as regiões
codificantes, as ORFs, contigs, entre outros parâmetros de busca.
O Artemis é um visualizador de sequência de DNA e uma ferramenta de anotação que permite
a visualização das características das sequências e os resultados das análises dentro do
contexto da sequência. Essa ferramenta é escrita em Java, lê sequências em formato EMBL,
Genbank, entre outros e pode trabalhar em seqüências de qualquer tamanho. As instruções
para instalação e execução do Artemis estão disponíveis no apêndice D.
59
5. RESULTADOS E DISCUSSÕES
5.1. EXECUÇÃO NA FERRAMENTA ANTISMASH
Seguindo os passos apresentados outrora no pipeline (figura 12), a execução das
ferramentas foi realizada. O primeiro programa de predição utilizado foi o antiSMASH e os
comandos utilizados para a instalação, execução e utilização dessa ferramenta local na versão
2.0 estão disponíveis no apêndice A.
Tanto na execução local como na online, arquivos gbk e fasta referentes aos genomas,
foram utilizados como insumo no antiSMASH, objetivando comparar os resultados gerados
entre as versões locais e online e entre os formatos de arquivos biológicos (gbk e fasta). A
versão utilizada na execução online foi o antiSMASH 3.0.2 e o primeiro genoma analisado
foi referente a cianobactéria Cyanobium sp. CACIAM 14 e os resultados podem ser
observados através da tabela 1.
Tabela 1 – Clusters de metabólitos secundários identificados na cianobactéria Cyanobium sp.
CACIAM 14 através do antiSMASH online
- - Tipo - -
Cluster Local (Contig) Arquivo FASTA Arquivo GBK De Para
1
JMRP01000001
Hipotético Hipotético 32511
36882 gbk
-
39903 fasta
2 Hipotético Hipotético 102513 108563
3 - Sacarídeo 214266 238618
4 Sacarídeo - 73667 94818
5 Sacarídeo - 147534 169078
6 Sacarídeo - 213966 238618
7 Sacarídeo - 2888655 309593
8
JMRP01000003
- Bacteriocina 63092 73307
9 - Sacarídeo 84227 94531
10 Sacarídeo Sacarídeo 110707
164392 gbk
-
166363 fasta
11 Sacarídeo - 1 128512
12 Sacarídeo –
Bacteriocina - 37507 99531
13 JMRP01000005 Hipotético Hipotético 111546 119195 gbk
-
60
119195 fasta
14 JMRP01000006 Ácido Graxo –
Terpeno
Ácido Graxo –
Terpeno
863 gbk
-
815 fasta
81546 gbk
-
49463 fasta
15
JMRP01000007
Sacarídeo - 32493 53593
16 Hipotético - 55483 69299
17 Sacarídeo - 85526 99835
18 JMRP01000008 Sacarídeo - 31666 52634
19 JMRP01000009 Sacarídeo - 29123 51240
20 JMRP01000010 Hipotético Hipotético 39161 45397
21 JMRP01000013 Bacteriocina Bacteriocina 40835 61382
22 JMRP01000016 Sacarídeo - Terpeno Ácido Graxo –
Terpeno 13355
57753 gbk
-
47070 fasta
23 JMRP01000018 Sacarídeo - 17774 39039
24 JMRP01000020 Bacteriocina Bacteriocina 28296 49886
25 JMRP01000021 Hipotético Hipotético 41158
45477 gbk
-
48458 fasta
26 JMRP01000022 Sacarídeo Sacarídeo 4481 45313
27 JMRP01000024 Sacarídeo Sacarídeo 632 22977
28 JMRP01000025 Sacarídeo Sacarídeo
13316
gbk
-
11419
fasta
40264
29 JMRP01000027 Sacarídeo - 1 20655
30 JMRP01000031 Bacteriocina Bacteriocina 17305 33185
31 JMRP01000032 Terpeno Terpeno 12754 32615
32 JMRP01000033 Sacarídeo - 10657 31609
33 JMRP01000037 Sacarídeo Sacarídeo 1 29780
34 JMRP01000039 Sacarídeo Sacarídeo 1 27365
35 JMRP01000042 Ácido Graxo Ácido Graxo 680 25850
36 JMRP01000043 - Hipotético 1470 10328
37 JMRP01000044 Sacarídeo - 2428 24157
38 JMRP01000047
- Hipotético 8845 18013
39 Sacarídeo - 1 19395
40 JMRP01000056 Sacarídeo - 1 12881
61
41 - Hipotético 7855 12440
Fonte: Adaptado de antiSMASH, 2015.
Os resultados individuais das execuções online do antiSMASH com os arquivos gbk e
fasta concernentes ao genoma da cianobactéria Cyanobium sp. CACIAM 14 obtiveram como
resultado 35 clusters na rodada referente ao arquivo fasta, enquanto que a execução com o
arquivo gbk encontrou somente 24. No total, através da análise comparativa entre os arquivos,
foram encontrados 41 clusters nos contigs. Contudo, analisando a quantidade de produtos
encontrados, alinhados ao local onde o trecho codificante se encontra, foram detectados 42
possíveis produtos, já que o cluster 22 detectou a presença de dois tipos de compostos
diferentes. A tabela abaixo representa um resumo geral da quantidade de produtos
encontrados nessa execução, tanto nos arquivos de formatos de arquivo fasta, como nos
arquivos gbk.
Tabela 2 – Quantidade de produtos detectados por formato de arquivo na execução online do
antiSMASH 3.0.2 na cianobactéria Cyanobium sp. CACIAM 14
Tipo de Produto Detectado Arquivo FASTA Arquivo GBK
Ácido Graxo 2 3
Bacteriocina 4 4
Hipotético 6 8
Sacarídeo 23 8
Terpeno 3 3
O genoma da Cyanobium sp. CACIAM 14 também foi executado no antiSMASH
local versão 2.0, utilizando arquivos gbk e fasta, anotados com as ferramentas NCBI PGAP e
RAST, respectivamente. Ambos geraram ao total 15 clusters, os resultados separados tanto da
execução com arquivo gbk como da execução com o formato fasta geraram 14 clusters.
Contudo, um produto hipotético, cuja localização difere se comparado ao arquivo gbk, foi
encontrado somente no formato fasta, assim como uma bacteriocina foi detectada no formato
gbk e não foi encontrada no arquivo fasta. Abaixo, segue a tabela 3, onde os resultados da
corrida local podem ser observados.
Tabela 3 – Clusters de metabólitos secundários identificados na cianobactéria Cyanobium sp.
CACIAM 14 através do antiSMASH local
62
- - Tipo - -
Cluster Local (Contig) Arquivo FASTA Arquivo GBK De Para
1 JMRP01000001 Hipotético - 220424 230592
2 JMRP01000003 Bacteriocina Bacteriocina 63092 73307
3 JMRP01000003 Bacteriocina Bacteriocina 84277 94531
4 JMRP01000003 Hipotético Hipotético 110707 164392
5 JMRP01000005 Bacteriocina Bacteriocina 10997 21254
6 JMRP01000005 Hipotético Hipotético 111534 119195
7 JMRP01000006 Terpeno Terpeno 20617 41546
8 JMRP01000016 Terpeno Terpeno 14662 44720
9 JMRP01000020 Bacteriocina Bacteriocina 28296 49886
10 JMRP01000025 Hipotético Hipotético 13316 37560
11 JMRP01000031 Bacteriocina Bacteriocina 17305 33185
12 JMRP01000032 Terpeno Terpeno 12730 32615
13 JMRP01000042 Hipotético Hipotético 8019 22257
14 JMRP01000056 Hipotético Hipotético 7855 12398
15 JMRP01000013 - Bacteriocina 40835 61382
Logo, pode ser observado que, as versões geradas pelos diferentes tipos de arquivos
também diferem na quantidade de tipos de clusters preditos, como pode ser observado na
tabela 4, referente a corrida local do antiSMASH.
Tabela 4 – Quantidade de produtos detectados por formato de arquivo na execução local do
antiSMASH 2.0 na cianobactéria Cyanobium sp. CACIAM 14
Tipo de Produto Detectado Arquivo FASTA Arquivo GBK
Ácido Graxo - -
Bacteriocina 5 6
Hipotético 6 5
Sacarídeo - -
Terpeno 3 3
Logo, com relação à localização da predição desses clusters na execução online na
Cyanobium sp. CACIAM 14, o cluster 12 na entrada gbk não apresentou nenhum tipo de
produto, enquanto que a entrada fasta continha além de um produto de sacarídeo, um produto
63
do tipo bacteriocina. Também pode ser ressaltado o fato do cluster 22 ter apresentado a
ocorrência de dois tipos de clusters diferentes, sendo que o cluster 22 na estrada fasta possui
um cluster de sacarídeo, ao passo que a entrada gbk apresenta um cluster de ácido graxo para
o mesmo cluster, contudo para ambos os tipos de arquivos no houve ocorrência de um
produto a mais do tipo terpeno.
A execução online também variou quanto ao número de clusters preditos de acordo
com a entrada, foram 24 clusters para a entrada RAST contra 35 clusters para a entrada fasta.
Além do mais, nota-se que a versão online consegue predizer mais clusters, dada a
incorporação dos clusters de sacarídeos e ácidos graxos. Em suma, nota-se que, baseando-se
nos dados das corridas locais, a qualidade da anotação interfere diretamente na capacidade de
predição da ferramenta.
Os mesmos procedimentos, outrora utilizados, relacionados ao uso da ferramenta
antiSMASH online foram aplicados ao genoma da Synechocystis sp. CACIAM 05 e geraram
resultados que podem ser observados na tabela 5.
Tabela 5 - Clusters de metabólitos secundários identificados na cianobactéria Synechocystis
sp. CACIAM 05 do antiSMASH online
- - Tipo - -
Cluster Local (Contig) Arquivo
FASTA Arquivo GBK De Para
1 c00005_scaffold00026 -
unknown_3 Sacarídeo Sacarídeo 17628 48701
2 c00007_scaffold00317 -
unknown_5 Terpeno Terpeno 1 4811
3
c00012_scaffold00001 -
unknown_10
Sacarídeo Sacarídeo 10008 51989
4 Sacarídeo Sacarídeo 53435 75812
5 Sacarídeo - 97893 119149
6 Ácido Graxo Ácido Graxo 187053 208393
7 c00024_scaffold00003
Sacarídeo - 8285 29382
8 Sacarídeo - 138955 159956
9 c00025_scaffold00011 -
unknown_23 Sacarídeo Sacarídeo 87389 104897
10 c00027_scaffold00016 Sacarídeo - 20361 41548
11 c00031_scaffold00023 -
unknown_29 Hipotético Hipotético 3634
15527 gbk
-
15485 fasta
64
12 c00036_scaffold00022 -
unknown_34
Ácido Graxo –
Sacarídeo Ácido Graxo 8393
29385 gbk
-
33202 fasta
13 c00037_scaffold00028 Sacarídeo - 27721 47803
14 c00038_scaffold00015
Sacarídeo - 1 11391
15 Sacarídeo - 59823 72068
16 c00040_scaffold00020
Sacarídeo - 17302 38471
17 Sacarídeo - 53796 65559
18 c00041_scaffold00012 -
unknown_39
Sacarídeo -
Terpeno Terpeno
28277 gbk
-
8221 fasta
49092
19 c00042_scaffold00005 -
unknown_43
Sacarídeo - 2693 32622
20 Hipotético Hipotético 75531 81474
21 c00044_scaffold00030 -
unknwon_42 Hipotético Hipotético 27630 34908
22 c00045_scaffold00008 Sacarídeo - 7194 48184
23 c00049_scaffold00014 Sacarídeo - 6640 28079
24 unknown_25 - Hipotético 29285 40784
25 unknown_38 - Hipotético 33741 37331
26 unknown_40
- Hipotético 2723 14601
27 - Sacarídeo 7233 28228
28 unknown_47 - Hipotético 16640 26847
Fonte: Adaptado de antiSMASH, 2015.
A execução da cianobactéria Synechocystis sp. CACIAM 05 na ferramenta
antiSMASH online gerou como resultados 23 clusters para a entrada do arquivo fasta. Em
contrapartida a entrada gbk gerou somente 16. Vale ressaltar que os clusters 12 e 18 em
ambas as entradas apresentaram diferenças no que se refere ao tipo de produto predito. No
cluster 12, tanto a entrada fasta como a entrada gbk apresentaram a ocorrência de um produto
do tipo ácido graxo, no entanto, o arquivo fasta detectou, além do ácido graxo, um de
sacarídeo. O cluster 18 apresentou resultados similares, contudo, no arquivo fasta houve a
detecção de um sacarídeo e um terpeno, enquanto que o arquivo gbk apresentou somente um
produto do tipo terpeno. A quantidade de produtos encontrados por tipo está disponível na
tabela 6.
Tabela 6 – Quantidade de produtos detectados por formato de arquivo na execução local do
65
antiSMASH 2.0 na cianobactéria Synechocystis sp. CACIAM 05
Tipo de Produto Detectado Arquivo FASTA Arquivo GBK
Ácido Graxo 2 2
Bacteriocina - -
Hipotético 3 7
Sacarídeo 18 5
Terpeno 2 2
Em paralelo, execuções utilizando essa ferramenta na versão local 2.0 também foram
realizadas, tendo com entrada os arquivos gbk e fasta referentes a cianobactéria Synechocystis
sp. CACIAM 05. Os resultados da execução local se encontram disponíveis através da tabela
7.
Tabela 7 - Clusters de metabólitos secundários identificados na cianobactéria Synechocystis
sp. CACIAM 05 do antiSMASH local
- - Tipo - -
Cluster Local (Contig) Arquivo FASTA Arquivo GBK De Para
1 scaffold00317 Terpeno Terpeno 1 4811
2 scaffold00023 Hipotético Hipotético 3634 15461
3 scaffold00012 Terpeno Terpeno 28277 49092
Após a execução local foram identificados 3 clusters, sendo que todos pertenciam ao
mesmo tipo. Embora a versão online do antiSMASH tenha identificado 23 clusters para o
arquivo fasta e 16 para o arquivo gbk, após análises realizadas pelos pesquisadores do LTB
foi constatado que se tratava dos mesmos 3 clusters previstos através da versão local
acrescidos de clusters de sacarídeos e ácidos graxos.
Por intermédio desses resultados foi constatado que a versão 3.0.3 do antiSMASH
incluiu novos identificadores para clusters de sacarídeos e ácido graxo. Sendo que eles
compõem duas classes de produtos naturais importantes a serem explorados pela indústria.
O terceiro arquivo executado na plataforma antiSMASH online versão 3.0.2 foi
referente ao genoma da cianobactéria Synechocystis sp. PCC 6803, os resultados da
ferramenta versão online podem ser observados na tabela 8.
66
Tabela 8 - Clusters de metabólitos secundários identificados na cianobactéria Synechocystis
sp. PCC 6803 do antiSMASH online
- - Tipo - -
Cluster Local (Contig) Arquivo FASTA Arquivo GBK De Para
1 c00001_gi4711... Sacarídeo - 47340 70935
2 c00001_gi4711... Sacarídeo - 208789 279727
3 c00001_gi4711... Sacarídeo - 352263 406941
4 c00001_gi4711... Sacarídeo - 5507027 528211
5 c00001_gi4711... Ácido Graxo - 810102 831442
6 c00001_gi4711... Sacarídeo - 895575 916789
7 c00001_gi4711... Sacarídeo - 939397 961774
8 c00001_gi4711... Sacarídeo - 965779 1007821
9 c00001_gi4711... Hipotético - 1170571 1184664
10 c00001_gi4711... Terpeno - 1389298 1410311
11 c00001_gi4711... Hipotético - 1519114 1523310
12 c00001_gi4711... Terpeno - 1540946 1562895
13 c00001_gi4711... Sacarídeo-Ácido
Graxo - 1584119 1608928
14 c00001_gi4711... Sacarídeo - 1619604 1673508
15 c00001_gi4711... Sacarídeo - 1688811 1709980
16 c00001_gi4711... Sacarídeo - 1826691 1848130
17 c00001_gi4711... Sacarídeo - 1922354 1943418
18 c00001_gi4711... Sacarídeo - 2022951 2070975
19 c00001_gi4711... Sacarídeo - 2235597 2276646
20 c00001_gi4711... Sacarídeo - 2375921 2397441
21 c00001_gi4711... Sacarídeo - 2419543 2440964
22 c00001_gi4711... Hipotético - 2506131 2513564
23 c00001_gi4711... Sacarídeo - 2556142 2577143
24 c00001_gi4711... Sacarídeo - 2687151 2708248
25 c00001_gi4711... Hipotético - 2839957 2847189
26 c00001_gi4711... Sacarídeo - 2890089 2910862
27 c00001_gi4711... Sacarídeo - 2956735 2977931
28 c00001_gi4711... Hipotético - 3034783 3041415
29 c00001_gi4711... Sacarídeo - 3130713 3152875
30 c00001_gi4711... Terpeno-
Sacarídeo - 3181661 3221606
67
31 c00001_gi4711... Sacarídeo - 3362502 3383689
32 c00001_gi4711... Sacarídeo - 3448234 3469397
33 c00001_gi4711... Hipotético - 3532600 3542936
34 AP012205 - Sacarídeo 1 3571103
35 AP012205 - Ácido Graxo 1 3571103
36 AP012205 - Sacarídeo 1 3571103
37 AP012205 - Sacarídeo 1 3571103
38 AP012205 - Terpeno 1 3571103
39 AP012205 - Terpeno 1 3571103
40 AP012205 - Ácido Graxo 1 3571103
41 AP012205 - Sacarídeo 1 3571103
42 AP012205 - Sacarídeo 1 3571103
43 AP012205 - Sacarídeo 1 3571103
44 AP012205 - Terpeno 1 3571103
Fonte: Adaptado do antiSMASH,2015.
Já a corrida antiSMASH online na cianobactéria Synechocystis sp. PCC 6803 revelou
33 clusters gênicos para a entrada fasta e 11 para a entrada gbk. A corrida online não
identificou nenhuma detecção similar aos dois arquivos, devido á um provável erro de
interpretação dos resultados, já que o valor apresentado corresponde ao valor do genoma
completo, pois o mesmo não está dividido em contigs. A tabela 9 apresenta um resumo geral
da quantidade de metabólitos secundários preditos pelo antiSMASH nessa execução.
Tabela 9 - Quantidade de produtos detectados por formato de arquivo na execução local do
antiSMASH 2.0 na cianobactéria Synechocystis sp. PCC 6803
Tipo de Produto Detectado Arquivo FASTA Arquivo GBK
Ácido Graxo 2 2
Bacteriocina - -
Hipotético 6 -
Sacarídeo 24 6
Terpeno 3 3
Após a execução online, a execução local foi iniciada. Através dos seus resultados
68
foram identificados 9 clusters, sendo que todos pertenciam ao mesmo tipo, sendo que 3 desses
clusters são do tipo terpeno e 5 do tipo hipotético ou seja, aquele cujo produto ainda é
desconhecido, mas que deve ser levado em consideração por existir a possibilidade de haver
potencial biológico. Nessa execução, tanto os arquivos fasta como os gbk obtiveram o mesmo
resultado que é apresentado na tabela 10.
Tabela 10 - Clusters de metabólitos secundários identificados na cianobactéria Synechocystis
sp. PCC 6803 do antiSMASH local
- - Tipo - -
Cluster Local (Contig) Arquivo FASTA Arquivo GBK From To
1 Gi47118304... Hipotético Hipotético 352263 357210
2 Gi47118304... Hipotético Hipotético 360030 381175
3 Gi47118304... Terpeno Terpeno 1389298 1410311
4 Gi47118304... Terpeno Terpeno 1540952 1562895
5 Gi47118304... Hipotético Hipotético 1626518 1639247
6 Gi47118304... Hipotético Hipotético 2381113 2397441
7 Gi47118304... Hipotético Hipotético 2893184 2900862
8 Gi47118304... Terpeno Terpeno 3181661 3202476
9 Gi47118304... Hipotético Hipotético 3532600 3542912
Nas execuções da versão online do antiSMASH, o algoritmo ClusterFinder foi
utilizado como parametro para a detecção de agrupamentos de genes hipotéticos, além da
análise Pfam sobre todo o genoma. As outras configurações utilizadas na busca foram os
parâmetros padrões da ferramenta.
Em geral, os resultados encontrados na versão local do antiSMASH, não apresentaram
mudanças significativas em comparação com os resultados da versão online. Contudo, o
resultado pode variar de acordo com o tipo de entrada e os tipos de ferramentas utilizadas para
a anotação do genoma contido nos arquivos fasta e gbk analisados.
Os resultados da corrida antiSMASH versão online podem ser configurados através de
filtros disponíveis no site, como as buscas costumam ser demasiadamente demoradas o
usuário tem a opção de colocar o e-mail no momento da busca e receber o resultado após
alguns dias dependendo do tamanho do arquivo á ser analisado.
Após a execução dos resultados na versão online, o antiSMASH apresenta, entre suas
diversas funcionalidades, a possibilidade de ver a homologia entre os clusters (figura 16).
69
Figura 16: Representação antiSMASH da homologia entre os clusters gênicos similares aos contidos no
genoma da Synechocystis sp. PCC 6803. Fonte: antiSMASH, 2015.
5.2. EXECUÇÃO NA FERRAMENTA NP.SEARCHER
Seguindo os passos propostos pelo pipeline, a ferramenta NP.searcher foi utilizada
com os mesmos objetivos da ferramenta antiSMASH. Os arquivos gbk referentes aos
genomas das cianobactérias foram executados no NP.searcher local e os comandos utilizados
para a manipulação dos arquivos e instalação dessa ferramenta estão disponíveis no apêndice
B.
Após rodar o comando clusterfinder.exe, os clusters descobertos têm suas sequências
em nucleotídeos (DNA) colocados na pasta CLUSTER. Um arquivo com o mesmo nome do
cluster será colocado na pasta SMILES. Este arquivo na pasta SMILES contém as estruturas
dos produtos naturais formados, junto as suas sequências de aminoácidos.
Após a execução da ferramenta, a pasta principal conterá arquivos gbk com os clusters
preditos, um arquivo embl e outro arquivo gbk contendo o genoma completo com os
agrupamentos gênicos descobertos. Já o arquivo html permite a visualização dos resultados
como se fossem submetidos na versão online dessa ferramenta, além de conter os clusters e a
identificação das CDS com os produtos preditos legendados.
O arquivo geneclusters.txt contém informações sobre o tipo de agrupamento
70
encontrado no genoma (ou contig/scaffold se o mesmo ainda não estiver completo). A pasta
svg contém as figuras do clusterblast para cada cluster, mostrando a comparação por blast de
cada agrupamento gênico com um organismo cujo genoma seja similar, objetivando a
comparação da arquitetura desse cluster. Tal comparação pode ser vista com mais detalhes
através da pasta clusterblast.
A pasta nrpspks_predictions_txt contém predições de domínios PKS e NRPS, a pasta
smcogs contém figuras de filogenias realizadas com genes dos clusters, buscando relações
evolutivas entre grupos de organismos.
A execução da ferramenta NP.searcher em todos os genomas utilizados como teste
nesse trabalho apresentou poucos resultados, sendo que a versão online não apresentou
nenhum resultado. Em contrapartida, o resultado da versão local apresentou alguns arquivos
como resultados da busca. Após análises realizadas nesses resultados, pode ser considerado
como problemática o fato de que o NP.searcher não aponta quais são as CDS que estão em
determinada região do cluster, embora informe sua posição no genoma. Assim, segundo os
pesquisadores do LTB, uma inspeção manual mais apurada é necessária para verificar o
trecho do genoma e analisar quais CDS participam da formação do produto detectado.
5.3. EXECUÇÃO NA FERRAMENTA JEMBOSS
A ferramenta JemBoss faz parte de um conjunto de programas que são encontrados ao
instalar o BioLinux, que se trata de um sistema robusto com uma gama variada de programas
relacionados que foi criado com o objetivo de auxiliar algumas das principais atividades dos
bioinformatas, a instalação do BioLinux (http://environmentalomics.org/bio-linux-download/)
pode ser realizada através do terminal Ubuntu/Linux com o seguinte comando:
Após a instalação do BioLinux, diversas ferramentas estarão disponíveis para
utilização e uma delas é o JemBoss. Essa ferramenta foi utilizada para extrair os dados de
proteína dos arquivos correspondentes as cianobactérias e exportar esses resultados com a
extensão (.fasta) e posteriormente utilizar como insumos de ferramentas de predição NapDos
e doBiscuit.
O primeiro comando utilizado na ferramenta Jemboss foi o CODERET, que é
responsável pela extração das CDS dos arquivos de genoma utilizados como entrada, o
comando pode ser observado através do quadro abaixo:
coderet -seqall/var/www/Bioinformática/arquivo_do_genoma.gbk -auto
wget -qO-http://nebc.nerc.ac.uk/downloads/bl8 only/upgrade8.sh | sudo sh
71
O segundo comando utilizado na ferramenta Jemboss foi o TRANSEQ, esse comando
é quem de fato realiza a extração dos dados de proteína (CDS) e pode ser observado no
quadro abaixo. O resultado desse comando foi utilizado como entrada para gerar resultados na
ferramenta NapDos e doBiscuit.
O JemBoss também pode ser executado via interface gráfica, a figura 17 exemplifica
o caso da utilização do comando CODERET para extração das CDS através da interface, onde
é necessário selecionar o tipo de entrada e depois o arquivo fasta ou gbk desejado através do
botão ―Browse files‖ para o upload do arquivo. Logo após clicar em ―Go‖ e aguardar o
processamento dos dados. Após um período o mesmo resultado disponível via linha de
comando será apresentado via interface, contudo apresentado de maneira diferente.
transeq -sequence/var/www/Bioinformática/arquivo_do_genoma.gbk -frame 1 -table
0 -notrim -noclean -noalternative -methionine -auto
72
Figura 17: Interface do JemBoss rodando o comando Coderet nos arquivos gbk.
Os dados de proteína contidos nos arquivos gbk referentes á Synechocystis sp.
CACIAM 05, Cyanobium sp. CACIAM 14 e Synechocystis sp. PCC 6803, resultantes da
execução do comando TRANSEQ na ferramenta Jemboss foram exportados através dessa
ferramenta em formato fasta e utilizados como entradas válidas para execução na ferramenta
NapDos e posteriormente na ferramenta doBiscuit.
5.4. EXECUÇÃO NA FERRAMENTA NAPDOS
Seguindo o fluxo de execução proposto no pipeline, a ferramenta NapDos foi
executada. Os parâmetros utilizados na busca NapDos foram os mesmos para todos os
arquivos fasta, ou seja, busca por domínios KS, HMM cutoff de 1e -5, tamanho mínimo de
correspondência de 200 aa, máximo de acessos salvos por consulta igual a 1 e versão do
banco de dados pks_03_sdsc.
O primeiro arquivo fasta executado nessa ferramenta foi referente à cianobactéria
73
Synechocystis sp. CACIAM 05. O número de sequências de entrada correspondeu a 2090 e os
resultados podem ser observados através da figura 18.
Figura 18: Resultado da corrida NapDos online com o genoma do cianobactéria Synechocystis sp.
CACIAM 05. Fonte: NapDos, 2015.
Os resultados da corrida na Synechocystis sp. CACIAM 05 demonstraram a presença
de duas CDS codificantes, ambas se assemelharam ao organismo cujo id no banco de dados
do NapDos corresponde ao FabF_Bacillus_FAS com percentual de identidade de 59 e 33%
respectivamente. O tamanho do alinhamento foi 408 para as duas CDS, além de um e-value
de 7e-128 e 2e-43, apresentando como via do produto a síntese de ácido graxo e classe de
dominío FAS.
O segundo arquivo fasta apresentado como insumo no NapDos foi concernente ao
genoma da cianobactéria Cyanobium sp. CACIAM 14, apresentando número de sequências de
entrada correspondente a 2935 e seus resultados são apresentados através da figura 19.
Figura 19: Resultados da corrida NapDos online com o genoma do cianobactéria Cyanobium sp. CACIAM
14. Fonte: NapDos, 2015.
A corrida NapDos no genoma da cianobactéria Cyanobium sp. CACIAM 14
demonstrou a presença de somente uma CDS, cujo id no banco de dados do NapDos
corresponde ao FabF_Bacillus_FAS com percentual de identidade de 56%. O tamanho do
alinhamento foi 406 e o valor do e-value de 2e-130, apresentando como produto um ácido
graxo e classe de dominío FAS.
A terceira sequência executada no NapDos foi pertinente ao genoma da cianobactéria
Synechocystis sp. PCC 6803, que apresentou número de sequências de entrada corresponde a
3171 e os resultados dessa execução podem ser observados através da figura 20.
74
Figura 20: Resultado da corrida NapDos online com o genoma da cianobactéria Synechocystis sp. PCC
6803. Fonte: NapDos, 2015.
A última execução na ferramenta NapDos referente ao genoma da Synechocystis sp.
PCC 6803 apresentou duas CDS codificantes, ambas se assemelharam ao organismo cujo id
no banco de dados do NapDos corresponde ao FabF_Bacillus_FAS com percentual de
identidade de 59 e 31% respectivamente. O tamanho do alinhamento para a primeira CDS foi
408 e para a segunda foi de 412, o valor do e-value de 6e-129 e 1e-44, apresentando como via
do produto a síntese de ácido graxo e classe de dominío FAS.
5.5. EXECUÇÃO NA FERRAMENTA DOBISCUIT
Compondo a última etapa no que se refere a predição de clusters gênicos proposta
nesse trabalho, a ferramenta doBiscuit foi executada, tanto na versão online como na versão
local. Através de execução dessa ferramenta na versão online, observou-se que os arquivos
fasta referentes aos genomas não eram executados com o cabeçalho, dificultando o processo
de predição já que todas as CDS teriam que ser executadas individualmente para que a
identificação do trecho codificante fosse encontrado, se tornando um processo
demasiadamente demorado.
Logo, buscando contornar esse problema, um download dos arquivos contidos no
banco de dados da ferramenta doBiscuit foi realizado, e com esses dados, posteriormente foi
criado um banco de dados BLAST (os comandos referentes ao download e criação do banco
de dados doBiscuit estão disponíveis através do Apêndice C).
A ferramenta BLAST é comumente utilizada para pesquisas na área da bioinformática
e realiza a busca por similaridades, além de possuir diversos tipos. O tipo de BLAST utilizado
para pesquisas nesse trabalho foi o BLASTp que é o responsável por fazer a busca de
proteínas em arquivos fasta.
Após a criação do banco de dados doBiscuit, é necessário colocar os arquivos fasta
referentes ao banco doBiscuit outrora criado e os genomas que serão analisados e o dentro da
pasta ―db‖ no BLAST. Logo após, executar o comando abaixo para realizar a busca por
75
compostos contidos nos arquivos fasta dos genomas através do banco da ferramenta
doBiscuit.
Esse comando possui diversos parametros, o –query indica o arquivo a ser analisado, o
paramêtro –db indica o banco ao qual de deseja realizar a pesquisa, o parametro –out indica o
arquivo de saída que conterá os resultados, já o -num_alignments retorna os melhores
alinhamentos computados pelo algoritmo dependendo do valor atribuído, nesse caso foi 1. Já
o -outfmt é um parametro que indica o formato do arquivo de saída, neste caso o valor 6
indica que o formato tabular, que é mais legível para a separação das sequências. O parametro
–evalue é um valor em notação científica e o –num_threads indica o número de processadores
utilizados na execução da busca BLASTp.
Logo após a execução desse comando, os resultados referentes aos genomas foram
gerados em um arquivo de texto apresentado em formato tabular, como demonstrado nos
Anexos A, B e C, onde cada coluna significa, respectivamente:
ID da sequência: Identificador da sequência fasta submetida ao BLASTp;
ID da sequência doBiscuit: Identificador da sequência fasta referente ao banco
de dados doBiscuit;
Porcentagem de identidade da sequência do genoma com determinado produto
no banco doBiscuit;
Tamanho do Alinhamento;
Número de mismatches: Número de alinhamentos errôneos;
Número de gaps: Pulos durante a execução do alinhamento;
Query Start: Posição inicial do alinhamento da sequência fasta submetida;
Query End: Posição final do alinhamento da sequência fasta submetida;
Subject Start: Posição inicial do alinhamento da sequência no banco de dados
doBiscuit;
Subject End: Posição final do alinhamento da sequência no banco de dados
doBiscuit.
A execução do BLASTp utilizando o banco de dados doBiscuit no fasta da
cianobactéria Synechocystis sp. CACIAM 05, apresentou um total de 312 alinhamentos
$ blastp -query <arquivo_de_entrada.fasta> -db <banco_de_dados_doBiscuit>
-out <arquivo_de_saida.txt> -outfmt 6 –evalue 1e-5 -num_alignments 1 -num_threads
<número_de_processadores> &
76
encontrados para 156 CDS codificantes, os resultados dessa corrida estão disponíveis através
de uma tabela no Anexo A.
Logo após, o arquivo fasta da cianobactéria Cyanobium sp. CACIAM 14 foi
executado, apresentando como resultados um total de 275 alinhamentos para as 240 CDS
codificantes, os resultados dessa corrida podem ser observados no Anexo B.
Por fim, a execução BLASTp foi realizada no arquivo fasta da cianobactéria
Synechocystis sp. PCC 6803 e resultou na ocorrência de 202 alinhamentos, para os quais
havia 191 CDS codificantes, a tabela com esses resultados está acessível através do Anexo C.
5.6. RESULTADO GERAL DAS EXECUÇÕES NAS FERRAMENTAS DE PREDIÇÃO
A tabela 11 realiza uma síntese no que se refere ao número total de produtos naturais
detectados nos genomas das cianobactérias que foram objeto de estudo deste trabalho,
avaliando os resultados de todas as ferramentas de predição de cluster gênico tanto locais
como online, levando em consideração o tipo do arquivo, assim como a ferramenta utilizada
na sua anotação.
Tabela 11 - Número Total de Produtos Naturais preditos por cada Ferramenta
Genoma Tipo de Arquivo
antiSMASH
Local
versão 1.2
antiSMASH
Online
versão 3.0.2
NaPDos
Online
DoBISCUIT
Local
Synechocystis
sp. CACIAM
05
FASTA anotado
pelo RAST 3 23
Não houve
execução
Não houve
execução
GBK proveniente
do RAST 3 16 2 312
Cyanobium sp.
CACIAM 14
FASTA anotado
pelo RAST 15 35
Não houve
execução
Não houve
execução
GBK proveniente
do PGAP 15 24 1 275
Synechocystis
sp. PCC 6803
FASTA anotado
pelo PGAP 9 23
Não houve
execução
Não houve
execução
GBK proveniente
do PGAP 9 16 2 202
77
6. CONSIDERAÇÕES FINAIS
O crescente progresso no desenvolvimento de tecnologias moleculares e ferramentas
computacionais capazes de gerar e analisar dados genéticos em grande escala tem
revolucionado os estudos relacionados á genômica, possibilitando um grande avanço no
conhecimento acerca de genomas.
Nesse cenário, milhares de projetos de sequenciamento de genoma foram concluídos
ou ainda estão em andamento (SILVA, 2014). Para acompanhar esses projetos, se fez
necessário o desenvolvimento de ferramentas e técnicas que auxiliassem os pesquisadores nos
principais processos relacionados ao sequenciamento, análise e anotação de genomas,
permitindo um aumento na rapidez, quantidade e complexidade dos dados gerados,
proporcionando que a genética se tornasse uma ciência extremamente rica em dados. Dessa
forma, a limitação não se trata mais da geração dos genomas, mas da análise e a interpretação
dos mesmos.
A grande disponibilidade de dados oriundos de genomas trouxe novos desafios e
possibilidades. O número de genomas de cianobactérias sequenciados e analisados ainda
permanece baixo se comparado a outros filos. Contudo, o interesse por encontrar metabólitos
secundários nas cianobactérias vem crescendo, assim como a necessidade por ferramentas
eficazes e capazes de auxiliar no processo de detecção de possíveis produtos naturais. Um
grande desafio da pesquisa pós-genoma é explorar o complexo biológico de vias metabólicas
de um genoma, tal como sequências de DNA, sequências de proteínas e perfis de expressão
gênica (SILVA, 2014).
As ferramentas de predição de clusters gênicos tem uma parcela de responsabilidade
no que diz respeito á busca e análise por novos produtos naturais, que tem ocasionado em um
crescimento na descoberta de novos compostos. Entretando, muitas das previsões não são
consistentes se avaliadas por diferentes ferramentas de bioinformática. Logo, é recomendado
que haja uma variedade de ferramentas utilizadas na predição de metabólitos secundários para
aumentar a força de predição dos compostos (MICALEFF et al., 2014).
Logo, um dos principais objetivos desse trabalho foi realizar a análise dos resultados
gerados pelas ferramentas de predição de cluster gênico: antiSMASH; NP.searcher; NapDos e
doBiscuit, mediante a entrada de diversos tipos de arquivos biológicos, sendo alguns deles
anotados por ferramentas diferentes. Alcançando assim, o objetivo principal de realizar testes
com tais ferramentas e verificar seu desempenho na detecção de novos compostos,
explicitando a importância de um processo de validação e análise de desempenho das
78
ferramentas que predizem produtos naturais.
Um dos resultados deste trabalho foi comprovar que existem diferenças, às vezes
significativas, entre os resultados de diferentes ferramentas de predição de cluster gênico.
Sendo assim, todos os testes realizados nas ferramentas utilizando os genomas: Cyanobium
CACIAM 14, Synechocystis PCC6803 e no draft da Synechocystis CACIAM 05,
demonstraram que a integração entre as diferentes ferramentas de predição promove melhores
resultados, ou seja, mais acurados.
Outro ponto a ser destacado é que dependendo do tipo de entrada e ferramenta
utilizada, o tipo de arquivo utilizado influencia diretamente no número de clusters a serem
identificados, ajudando a desvender o potencial biotecnológico das informações contidas nos
arquivos.
Entre as ferramentas de predição utilizadas, o antiSMASH se destacou pelo fato de
possuir uma interface amigável na versão online, além de funções que mostravam genes de
outros organismos que eram parcialmente homólogos ao cluster encontrado na busca.
Também apresentou resultados mais completos, especialmente se alinhados ao algoritmo de
busca ClusterFinder e Pfam. A versão local apresentou, em geral, atividades e resultados
similares aos da versão online.
Os resultados da ferramenta NP.searcher foram os mais limitados, isso ocorreu devido
essas cianobactérias raramente possuírem módulos de PKS/NRPS, mesmo assim os seus
resultados devem ser considerados para promover com mais detalhes a descrição das funções
dos genes.
O NapDos também apresentou resultados limitados, mas possui funcionalidades
interessantes, como o fato de apresentar uma árvore com a estrutura do produto predito,
domínios de referência, resultados de buscas por Blast e domínios candidatos. Embora a
ferramenta NapDos tenha apresentado poucos resultados, pode ser descatado o fato dela ter
detectado domínios que essas cianobactérias não costumam apresentar.
O banco de dados da ferramenta doBiscuit é extremamente rico e possui um grande
potencial biotecnológico no que diz respeito a pesquisa por produtos em cianobactérias,
devido esse fator, essa ferramenta foi a que apresentou, no geral, mais resultados.
Em suma, o número de ferramentas de predição de cluster gênico e bancos de dados
de metabólitos secundários têm aumentado e a tendência é que surjam cada vez mais
ferramentas que auxiliem esse processo, pois as pesquisas in silico reduzem os custos
relacionados á pesquisas in vitro, ou seja, processos de predição realizados em laboratório.
79
Vale ressaltar também que o processo de predição com ferramentas deve estar alinhado a
análise manual para que os resultados sejam ainda mais satisfatórios.
6.1. TRABALHOS FUTUROS
Entre os trabalhos futuros planejados ao término desse trabalho estão:
A automatização dos processos relacionados a integração das melhores
ferramentas de predição.
Curadoria manual dos resultados gerados por todas as ferramentas de predição
de clusters gênicos pelo grupo de pesquisa do Laboratório de Tecnologia
Biomolecular da Universidade Federal do Pará.
Submissão de um artigo relacionado a esse trabalho na trilha e-Science do
XXXVI Congresso da Sociedade Brasileira de Computação CSBC - 2016.
80
REFERÊNCIAS
ABED, Raeid M. M.; DOBRETSOV, S; SUDESH, K. Applications of cyanobacteria in
biotechnology. J Appl Microbiol, [s .i. ], v. 106, n. 1, p.1-12, jan. 2009.
antiSMASH, 2015. Disponível em: < http://antismash.secondarymetabolites.org/>. Acessado
em 15 de abril de 2015.
BARACALDO, Patricia Sanchez; HAYES, P. K.; BLANK, Carrine E.. Morphological and
habitat evolution in the Cyanobacteria using a compartmentalization approach.Geobiology. [s
.i. ], p. 145-165. 19 dez. 2005.
BARBOSA, Eduardo Buzolin et al. Proteômica: Metodologias e aplicações no estudo de
doenças humanas. Revista da Associação Médica Brasileira, São José do Rio Preto, v. 58, n.
3, p.366-375, 20 jan. 2012.
BELL, Michael J.; COLLISON, Matthew; LORD, Phillip. Can Inferred Provenance and Its
Visualisation Be Used to Detect Erroneous Annotation? A Case Study Using
UniProtKB. Plos One, United Kigdom, v. 8, n. 10, p.1-2, 15 out. 2013.
BENSON, D. A. et al. GenBank. Nucleic Acids Research, [s.l.], v. 43, n. 1, p.30-35, 20 nov.
2014. Oxford University Press (OUP). DOI: 10.1093/nar/gku1216
BLIN, Kai et al. AntiSMASH 2.0—a versatile platform for genome mining of secondary
metabolite producers. Nucleic Acids Research. [s .i. ], p. 204-212. 1 jul. 2013
BLUNT., JW et al. Marine natural products. Natural Product Reports, [s. I.], v. 2, n. 1, p.237-
323, 2013.
BRANDÃO, H. N. et al. Química e farmacologia de quimioterápicos antineoplásicos
derivados de plantas. Quim. Nova, v. 33, n. 6, p. 1359-69, 2010.
BURJA, Adam M. et al. Marine cyanobacteria: A prolific source of natural
products. Tetrahedron. [s .i. ], p. 1-31. 1 nov. 2001.
CALTEAU, Alexandra et al. Phylum-wide comparative genomics unravel the diversity of
secondary metabolism in Cyanobacteria. Bcm Genomics, [s. I.], v. 15, n. 977, p.1-14, 18 nov.
2014.
CARNEIRO, Monalisa Sampaio; VIEIRA, Maria Lucia Carneiro. Mapas genéticos em
plantas. Bragantina, Piracicaba, v. 61, n. 2, p.89-100, maio 2002.
81
CIMERMANCIC, Peter et al. Insights into Secondary Metabolism from a Global Analysis of
Prokaryotic Biosynthetic Gene Clusters. Elsevier Inc. Edmonton, p. 412-421. 17 jul. 2014.
COUTO, Danielle Costa Carrara. IMPLEMENTAÇÃO DE UM BANCO DE DADOS
INTEGRADO DE GENÔMICA COMPARATIVA SOBRE CIANOBACTÉRIAS:
CYANOBR. 2014. 86 f. Tese (Doutorado) - Curso de Genética e Biologia Molecular,
Universidade Federal do Pará, Belém, 2014.
CLAVERIE, Jean-Michael; NOTREDAME, Cedric. Bioinformatics for Dummies. 2. ed.
Indianapolis: Wiley Publishing, 2007. 436 p.
DAHMS, Hans-uwe; YING, Xu; PFEIFFER, Cornelia. Antifouling potential of
cyanobacteria: A mini-review. Biofouling: The Journal of Bioadhesion and Biofilm
Research,[s .i. ], v. 22, n. 5, p.317-327, ago. 2006.
DoBISCUIT, 2015. Disponível em < http://www.bio.nite.go.jp/pks/>. Acessado em 15 de
Abril de 2015.
DUNCAN, Katherine R. et al. Molecular Networking and Pattern-Based Genome Mining
Improves Discovery of Biosynthetic Gene Clusters and their Products from Salinispora
Species. Chemistry & Biology, [s.i], v. 22, n. 4, p.460-471, 23 abr. 2015.
ENA. About the European Nucleotide Archive. Disponível em: <http://www.ebi.ac.uk/ena>.
Acesso em: 15 abr. 2015.
ESPÍNDOLA, Foued Salmen et al. RECURSOS DE BIOINFORMÁTICA APLICADOS ÀS
CIÊNCIAS ÔMICAS COMO GENÔMICA, TRANSCRIPTÔMICA, PROTEÔMICA,
INTERATÔMICA E METABOLÔMICA. Biosci. J, Uberlândia, v. 26, n. 3, p.463-477, jun.
2010.
ESPÍNDOLA, Luciana da Silveira. Pontifícia Universidade Católica do Rio Grande do Sul
Faculdade de Informática Pós-Graduação em Ciência da Computação Um Estudo sobre
Modelos Ocultos de Markov HMM - Hidden Markov Model. 2009. 29 f. Dissertação
(Mestrado) - Curso de Pós-graduação em Ciência da Computação, Pontifícia Universidade
Católica do Rio Grande do Sul, Porto Alegre, 2009.
FCBA, Universidade Federal da Grande Dourados -. Organismos Transgênicos. Disponível
em: <http://geneticavirtual.webnode.com.br/genetica-virtual-home/topicos-extras/organismos
transgênicos/>. Acessado em 5 de Maio de 2015.
82
FELÍCIO, Rafael de; OLIVEIRA, Ana Ligia Leandrini de; DEBONSI, Hosana Maria.
Bioprospecção a partir dos oceanos: Conectando a descoberta de novos fármacos aos produtos
naturais marinhos. Ciência e Cultura, São Paulo, v. 64, n. 3, p.39-42, 2012.
FINN, R. D. et al. The Pfam protein families database. Nucleic Acids Research, [s.l.], v. 36, n.
1, p.281-288, 23 dez. 2008. Oxford University Press (OUP). DOI: 10.1093/nar/gkm960
FINN, Robert D. et al. Pfam: The Protein Families Database. Nucleic Acids Research, [s.l.],
v. 42, n. 1, p.222-230, 27 nov. 2013. Oxford University Press (OUP). DOI:
10.1093/nar/gkt1223.
GUIZELINI, Dieval. BANCO DE DADOS BIOLÓGICO NO MODELO RELACIONAL
PARA MINERAÇÃO DE DADOS EM GENOMAS COMPLETOS DE PROCARIOTOS
DISPONIBILIZADOS PELO NCBI GENBANK. 2010. 149 f. Monografia (Especialização) -
Curso de Pós - Graduação em Bioinformática,, Universidade Federal do Paraná, Curitiba,
2010.
HUBBARD, T. Ensembl 2005. Nucleic Acids Research, [s. i.], v. 33, n. 1, p.447-453, jan.
2005.
HUNTER, Sarah et al. InterPro: The integrative protein signature database. Nucleic Acids
Research, [s. i.], v. 37, n. 1, p.211-215, jan. 2009.
ICHIKAWA, Natsuko et al. DoBISCUIT: a database of secondary metabolite biosynthetic
gene clusters. Nucleic Acids Research, [s .i. ], v. 10, n. 4, p.408-414, jan. 2013.
KANEHISA, Minoru et al. KEGG for linking genomes to life and the environment. Nucleic
Acids Research, [s. i.], v. 36, n. 1, p.480-484, jan. 2008.
KANEHISA, Minoru; GOTO, Susumu. KEGG: Kyoto Encyclopedia of Genes and
Genomes. Nucleic Acids Research, [s. i.], v. 28, n. 1, p.27-30, jan. 2000.
KINGHORN, A. Douglas et al. The Relevance of Higher Plants in Lead Compound
Discovery Programs. Journal Of Natural Products, [s. i.], v. 74, n. 6, p.1539-1555, jun. 2012.
KINGSTON, David G. I.. Modern Natural Products Drug Discovery and Its Relevance to
Biodiversity Conservation. J. Nat. Prod., [s.l.], v. 74, n. 3, p.496-511, 25 mar. 2011. American
Chemical Society (ACS). DOI: 10.1021/np100550t.
KLUG, William S.; CUMMINGS, Michael R.; SPENCER, Charlotte A.; PALLADINO,
Michael A.;. Conceitos de Genética. 9. ed. Brasil: Artmed, 2010. 896 p.
83
LEITE, Washington Luís Oliveira; OLIVEIRA FILHO, Abrahão Alves de. AVALIAÇÃO
FARMACOLÓGICA DE PRODUTOS NATURAIS NO COMBATE AO CÂNCER. Revista
Interdisciplinar em Saúde, Cajazeiras, v. 2, n. 1, p.192-211, dez. 2014
LESK, Arthur M. Introdução a Bioinformática. 2. ed. Porto Alegre: Artmed, 2008. 384 p.
LEWIS, Suzanna; ASHBURNER, Michael; REESE, Martin G. Annotating eukaryote
genomes. Elsevier Science. [s .I. ], p. 349-354. 2000.
LI, Michael Ht et al. Automated genome mining for natural products. BCM Bioinformatics,
[s. I.], v. 10, 16 jun. 2009; 10:185. doi:10.1186/1471-2105-10-185.
LIMA, Alex Ranieri Jerônimo et al. Draft Genome Sequence of the Brazilian Cyanobium sp.
Strain CACIAM 14. Pcm, Belém, v. 2, n. 4, p.1-2, ago. 2014. Disponível em:
<http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4110760/pdf/e00669-14.pdf>. Acesso em:
12 set. 2015.
LIMA, Alex Ranieri Jerônimo. POTENCIAL BIOTECNOLÓGICO DE
CIANOBACTÉRIAS AMAZÔNICAS NA PRODUÇÃO DE HIDROCARBONETOS – DA
MONTAGEM DE GENOMAS A MODELAGEM MOLECULAR COMPARATIVA. 2015.
77 f. Dissertação (Mestrado) - Curso de Genética e Biologia Molecular, Universidade Federal
do Pará, Belém, 2015.
LOTUFO, Letícia Veras Costa et al. A Contribuição dos Produtos Naturais como Fonte de
Novos Fármacos Anticâncer: Estudos no Laboratório Nacional de Oncologia Experimental da
Universidade Federal do Ceará. Rvq: Revista Virtual de Química, [s. i.], v. 2, n. 1, p.47-58, 30
out. 2010.
MACHADO, Henrique et al. Genome mining reveals unlocked bioactive potential of marine
Gram-negative bacteria. BMC Genomics, [s. I. ], v. 158, n. 16, p.1-12, 2015.
METALIFE. NCBI GenPept. Disponível em: <http://www.metalife.com/GenPept>. Acessado
em 16 de Abril de 2015.
MICALLEF, Melinda L. et al. Exploring cyanobacterial genomes for natural product
biosynthesis pathways. Elsevier. [s. I. ], p. 1-12. 23 nov. 2014.
MICALLEF, Melinda L. et al. Genome mining for natural product biosynthetic gene clusters
in the Subsection V cyanobacteria. Bmc Genomics, [s.I.], v. 16, n. 1, p.1-20, 3 set. 2015.
Springer Science + Business Media. DOI: 10.1186/s12864-015-1855-z.
84
Ministério do Meio Ambiente (MMA). Quarto Relatório Nacional para a Convenção Sobre
Diversidade Biológica. Brasília, 2011. Disponível em
<http://www.mma.gov.br/estruturas/sbf2008_dcbio/_arquivos/quarto_relatorio_147.pdf >
Acessado em 14 de Abril de 2015.
MIZRACHI, Eshchar et al. De novo assembled expressed gene catalog of a fast-growing
Eucalyptus tree produced by Illumina mRNA-Seq. BMC Genomics, [s. I.], v. 11, 1 dez. 2010.
MULDER, N. J. et al. New developments in the InterPro database. Nucleic Acids Research,
[s. I.], v. 35, n. 1, p.224-228, jan. 2007.
NaPDoS, 2015. Disponível em < http://napdos.ucsd.edu >. Acessado em 15 de Abril de 2015.
NP.searcher, 2015. Disponível em < http://dna.sherman.lsi.umich.edu/ >. Acessado em 02 de
Maio de 2015.
OGASAWARA, Yasushi et al. Expanding our Understanding of Sequence-Function
Relationships of Type II Polyketide Biosynthetic Gene Clusters: Bioinformatics-Guided
Identification of Frankiamicin A from Frankia sp. EAN1pec. Plos One, [s.l.], v. 10, n. 4, p.1-
45, 2 abr. 2015. Public Library of Science (PLoS). DOI: 10.1371/journal.pone.0121505.
OLIVEIRA, L. G. et al. Explorando Produtos Naturais Microbianos Nas Fronteiras Da
Química E Da Biologia. Quim. Nova, v. 36, n. 10, p. 1577-86, 2013.
OWEN, J. G. et al. A functional screen for recovery of 4′-phosphopantetheinyl transferase and
associated natural product biosynthesis genes from metagenome libraries. Environmental
Microbiology, [s.l.], v. 14, n. 5, p.1198-1209, 22 fev. 2012. Wiley-Blackwell. DOI:
10.1111/j.1462-2920.2012.02699.x.
PEIXOTO, Bruno Malveira. Bioinformática aplicada a um projeto de metagenômica. 2011.
20 f. Dissertação (Mestrado) - Curso de Bioinformática, Unicamp, São Paulo, 2011.
PRUITT, Kim D. et al. NCBI Reference Sequences (RefSeq): Current status, new features
and genome annotation policy. Nucleic Acids Research, [s. I.], v. 40, n. 1, p.130-135, jan.
2012.
QUIMIOTERAPIA Antineoplásica. Disponível em:
<http://www.centron.com.br/servicos/tratamentos/quimioterapia-antineoplasica>. Acessado
em 27 de Julho de 2015.
85
SCHUCH, Viviane. Construção de biblioteca metagenômica para prospecção de genes
envolvidos na biossíntese de antibióticos. 2007. 65 f. Tese (Doutorado) - Curso de
Microbiologia, Unesp, Jaboticabal, 2007.
SILVA, Waldeyr Mendes Cordeiro da. Método para reconstrução in silico de redes
metabólicas de fungos: um estudo de caso para o Paracoccidioides lutzii. 2014. 58 f. Tese
(Doutorado) - Curso de Mestrado em Informática, Universidade de Brasília, Brasília, 2014.
TANENBAUM, A. S. & WOODHULL, A. S. Sistemas operacionais: Projeto e
Implementação. 2. ed. trad. Edson Furmankiewicz. Porto Alegre: Bookman, 2000.
TATENO, Y. et al. The DNA Data Bank of Japan launches a new resource, the DDBJ Omics
Archive of functional genomics experiments. Nucleic Acids Research, [s. i.], p.27-30, jan.
2012.
TOLEDO-ARANA, Alejandro; SOLANO, Cristina. Deciphering the physiological blueprint
of a bacterial cell: revelations of unanticipated complexity in transcriptome and
proteome. Bioessays, [s. i.], v. 32, n. 9, p.461-467, jun. 2010.
UNESP, 2015. Disponível em<http://unesp.br/prope/mostra_arq_multi.php?arquivo=6693 >.
Acessado em 14 de Abril de 2015.
UNIPROT, 2015. Disponível em: <http://www.uniprot.org/>. Acessado em 17 de Maio de
2015.
VEAS, Esteban Mauricio Cordero. Modificações pós-traducionais (PTMs) da glicoproteína
de superfície gp82, a principal adesina das formas metacíclicas de Trypanosoma cruzi. Bv-cdi
Fapesp, [s. i. ] , out. 2013. Http://www.bv.fapesp.br/7583.
VERLI, Hugo. Bioinformática da Biologia à flexibilidade. Porto Alegre: Independente, 2014.
282 p.
VIEGAS JUNIOR, Cláudio; BOLSANI, Vanderlan da Silva. OS PRODUTOS NATURAIS E
A QUÍMICA MEDICINAL MODERNA. Quim. Nova, Rio de Janeiro, v. 29, n. 2, p.326-337,
20 jan. 2006.
WANG, Hao; FEWER, David P.; SIVONEN, Kaarina. Genome Mining Demonstrates the
Widespread Occurrence of Gene Clusters Encoding Bacteriocins in Cyanobacteria.Plos
One. [s .i. ], p. 1-10. 20 jul. 2011.
86
WATSON, James D. et al. DNA Recombinante: Genes e genomas. 3. ed. [s. i.]: Artmed,
2009. 474 p. Tradução: Elio Hideo Babá et al.
YADAV, Gitanjali; GOKHALE, Rajesh S; MOHANTY, Debasisa. Computational Approach
for Prediction of Domain Organization and Substrate Specificity of Modular Polyketide
Synthases. Jornal Molecular Biology, [s .i. ], v. 328, n. 2, p.335-363, 25 abr. 2003.
ZDOBNOV, Evgeni M. et al. The EBI SRS server-recent developments. Bioinformatics, [s.
I.], v. 18, n. 2, p.368-373, fev. 2002.
ZIEMERT, Nadine et al. The Natural Product Domain Seeker NaPDoS: A Phylogeny Based
Bioinformatic Tool to Classify Secondary Metabolite Gene Diversity. Plos One, [s. I.], v. 7, n.
3, p.1-9, 29 mar. 2012.
102
Apêndice I: Manual de Instalação e Utilização do antiSMASH Local 1.2
Download e Instalação
OBS: Esse manual irá exemplificar o download do script para o sistema operacional
Linux.
Passo 1
Primeiramente é necessário realizar o download do script da ferramenta antiSMASH
no site http://antismash.secondarymetabolites.org/download.html , como pode ser
observado na figura abaixo:
Ao clicar no local indicado na figura acima, uma tela de confirmação do download do
script do AntiSMASH irá aparecer, clique no local indicado na figura abaixo para
realizar o download.
103
Passo 2
Após o download, entrar na pasta que contém o arquivo install_ubuntu.sh e verificar
se o mesmo foi baixado corretamente.
Logo após, entrar através do terminal na pasta onde o arquivo está localizado por
meio do comando cd / , digitar no terminal o comando apresentado abaixo:
Após a finalização da instalação do AntiSMASH, uma mensagem aparecerá no
terminal, constando que a instalação do AntiSMASH e suas dependências foram
realizadas com sucesso.
Execução do AntiSMASH
OBS: Esse manual irá apresentar um exemplo de execução para o sistema
operacional Linux.
Passo 1
Após a instalação do AntiSMASH, uma pasta contendo os arquivos do programa será
gerada no local onde a instalação do mesmo foi realizada.
$ sudo bash install_ubuntu.sh
104
A figura abaixo mostra os comandos existentes dentro do arquivo run_antismash.
Copiar os comandos para que sejam executados no terminal linux.
Os comandos tem que ser executados separadamente pelo terminal, como mostrados
nas caixas abaixo, representando o primeiro e segundo comando a serem executados,
respectivamente:
e
Passo 2Após a execução desses comandos, o antiSMASH local já estará apto para
processar a entrada de arquivos .gb , .fasta , entre outros.
Para executar uma entrada no antiSMASH local é necessário criar duas pastas dentro
da pasta de arquivos do antiSMASH, a primeira deve conter o arquivo gbk / fasta
que será executado e a segunda pasta a ser criada irá conter os resultados dessa
execução.
Nesse tutorial, as pastas criadas foram ―entradas_antismash‖ e ―saidas_antismash‖.
Para melhor organizar os resultados, foram criadas duas subpastas que continham os
nomes dos genomas que seriam executados pela ferramenta. A pasta ―cyanobium_14‖
foi criada dentro da pasta ―entradas_antismash‖ e a pasta ―cyanobium_14_saida‖ foi
criada dentro da pasta ―saidas_antismash‖.
OBS: É elementar não esquecer de colocar o arquivo (.gb) dentro da subpasta
correspondente a entrada do arquivo. No exemplo desse tutorial seria dentro da
subpasta “cyanobium_14” que fica dentro da pasta “entradas_antismash”.
$ source /caminho_do_antismash/antismash/sandbox/bin/aticvate
$ /caminho_do_antismash/antismash/run_antismash.py $*
105
Passo 3
Após as preparações exemplificadas no Passo 2 desse tutorial, é necessário digitar o
seguinte comando no terminal linux para que a execução ocorra. Como mostrado
abaixo:
Depois que a execução for finalizada, os resultados deveram aparecer como previsto
dentro da subpasta ―cyanobium_14_saida‖ que fica dentro da pasta
―saidas_antismash‖.
(sandbox)pc@pc: /caminho_do_antismash$ python run_antismash.py /caminho_do_antismash/antismash/entradas_antismash/cyanobium_14/arquivo.gb -c 4 --input-type nucl --clusterblast --subclusterblast --smcogs --inclusive --full-hmmer --full-blast --outputfolder /caminho_do_antismash/antismash/saídas_antismash/cyanobium_14_saida
106
Apêndice II: Manual de Instalação e Utilização do NP.searcher Local
Download e Instalação
Passo 1
Primeiramente é necessário realizar o download do script da ferramenta NP.searcher
no site http://dna.sherman.lsi.umich.edu/ , como mostrado na figura abaixo:
Ao clicar no local indicado na figura acima, uma tela de confirmação do download da
base do NP.searcher compactada irá aparecer. Clique no local indicado na figura
abaixo para realizar o download.
107
Passo 2
Compilando:
Para compilar em um ambiente terminal de Unix/Linux/Mac/Cygwin, faça o seguinte:
1. Descompacte o arquivo ―npsearcher.tar.gz‖ em um diretório.
2. Digite "make" para compilar clusterFinder.exe, main, exe e arquivos associados.
Fornecer permissões para Blastall executáveis:
1. Digite o seguinte comando para fornecer permissões para o blastall executável:
ou
2. Se a execução for em um sistema mac, substitua o blastall atual por blastall-mac
renomeando "blastall" para "blastall-mac" .
chmod +x blastall
sudo chmod a+x blastall
108
Passo 3
A execução do programa:
Para realizar a execução, coloque o arquivo .fasta de DNA na pasta ―genomes‖, e
digite o seguinte comando:
O clusterFinder.exe chamará o main.exe para analisar cada cluster produto natural
descoberto.
A execução de genomas grandes pode demorar vários minutos ou mais, dependendo
da velocidade de processamento do computador.
Para analisar um único cluster de produto natural, alternativamente, coloque o seu
arquivo .fasta de DNA na pasta ―clusters‖ ao invés da pasta ―genomes‖, e chamar o
main.exe diretamente" clusters ":
Os resultados da corrida NP.searcher local estarão na pasta ―SMILES‖ e as sequências
de DNA correspondentes permanecerão na pasta ―clusters‖.
./clusterFinder.exe nome_do_arquivo
./main.exe nome_do_arquivo
109
Apêndice III: Manual de Instalação e Uso da Ferramenta DoBiscuit
Download e criação do Banco DoBiscuit Local
Passo 1
Para realizar o download da base de dados da ferramenta DoBiscuit, é necessário
acessar o link (http://www.bio.nite.go.jp/pks/) e clicar no local indicado (Data
Download) pela figura abaixo:
Após clicar no local indicado, a tela indicada pela figura abaixo aparecerá. Realize o
download de todos os arquivos (fasta e tgz) presentes da coluna Translation of
Coding Sequences, como indicado na figura abaixo.
110
OBS: É recomendado realizar o download dos arquivos e salvar em uma pasta
específica, para facilitar os procedimentos realizados posteriormente.
Passo 2
Após realizar o download e salvar na pasta, extrair os arquivos tgz e excluir os
compactados.
Retirar os arquivos extraídos de suas respectivas pastas e logo após excluir as pastas
que ficaram vazias.
No terminal Linux, entrar na pasta onde estão os arquivos referentes ao banco do
DoBiscuit, cuja extensão é .pep. O comando abaixo servirá de exemplo para essa
operação.
Criar um diretório para conter o banco blast do DoBiscuit:
Logo após, realizar a junção de todos os arquivos (.pep) baixados para a criação do
arquivo multifasta do DoBiscuit.
$ cd /var/www/Bioinformática/dobiscuit
$ mkdir blast_database
$ cat *.pep > dobiscuit_database.fasta
111
Depois de criar o arquivo multifasta, mover para o diretório blast_database
anteriormente criado.
Passo 3
Entrar no diretório blast_database.
OBS: Caso necessite de ajuda, o comando (formatdb - -help) pode ser utilizado.
Para efetivamente criar o banco de dados blast DoBiscuit, digitar o seguinte comando:
Logo após, o arquivo dobiscuit_database.fasta contendo o banco do DoBiscuit estará
disponível no diretório criado, no caso desse tutorial, está na pasta blast_database.
$ mv dobiscuit_database.fasta
$ cd blast_database
$ formatdb –t dobiscuit_database.fasta –p T –n
112
Apêndice IV: Manual de Instalação e Execução da Ferramenta Artemis
Obter e Instalar o Artemis
Passo 1
A versão mais atualizada do Artemis está sempre disponível a partir das páginas web
Artemis (http://www.sanger.ac.uk/science/tools/artemis).
Artemis pode ser executado em qualquer computador que tenha uma versão recente do
Java. Esta versão do Artemis requer Java 1.6 pelo menos.
Passo 2
Instruções de instalação para UNIX e GNU/Linux
Alterar o caminho do arquivo para o diretório no qual se deseja instalar a ferramenta
Artemis. Usaremos como exemplo o diretório (~/).
Descompactar o arquivo tar do Artemis_(compiled.tar.gz) baixado através do site. No
UNIX o comando utilizado para executar essa tarefa é:
Um diretório chamado ~/artemis será criado e irá conter todos os arquivos necessários
para a execução dessa ferramenta.
$ tar zxf artemis_compiled.tar.gz
113
Formatos de arquivo
O Artemis lê formatos de seqüência e de arquivo anotação comuns á bioinformática.
Como maiores conjuntos de dados tornam-se mais comum, é agora possível para
indexar alguns desses formatos (FASTA e GFF3) para acelerar e melhorar o
desempenho do Artemis. Logo essa ferramenta pode ler os seguintes formatos de
arquivo de seqüência e de anotação: EMBL; GenBank; GFF; FASTA; sequência
múltipla FASTA, entre outros.
Passo 3
Execução do Artemis em UNIX e GNU/Linux
No Unix e GNU/Linux a maneira mais fácil para executar o programa é executar o
script chamado arte no Artemis diretório de instalação, como este:
Se tudo correr bem, uma pequena janela com três menus será apresentada, como pode
ser observado na figura abaixo. Através dela é possível selecionar as opções que
melhor se adequem a busca desejada.
Na barra superior, em Options é importante selecionar o parametro que representa o
objeto de busca do arquivo que será analisado através dessa ferramenta. Nesse
exemplo, a opção 11 (Bacterial and Plant Plastid) foi selecionada, como mostrado na
figura abaixo:
$ artemis/arte
114
Alternativamente, você começar a Artemis pelo terminal, com o nome de um arquivo
de seqüência ou arquivo EMBL padrão do Artemis, por exemplo:
Caso possuir um arquivo de sequência e arquivos extras é possível ler todos em
formato de tabela, através do comando abaixo:
O arquivo c1215.blastn.tab é um exemplo de arquivo que é resultado de uma pesquisa
BLASTN contra EMBL e foi convertido para aplicar formato de tabela.
Caso o script arte não funcione, o comando abaixo pode ser utilizado como
alternativa:
$ artemis/arte artemis/etc/c1215.embl
$ artemis/arte artemis/etc/c1215.embl + artemis/etc/c1215.blastn.tab
$ artemis/art –help
$ cd /artemis java -mx500m -ms100m -classpath lib /biojava.jar: lib / jemAlign.jar: lib / j2ssh / j2sshcore.jar: lib / ibatis / ibatis-2.3.4.726.jar: lib / ibatis / log4j-1.2.14.jar: lib / ibatis / nodep-cglib-2.2.jar: lib / postgresql-8.4-701.jdbc3.jar: lib / picard.jar: lib / Picard / sam.jar: lib / batik / batik-awtutil.jar: lib / batik / batik-codec.jar: lib / batik / batik-dom.jar: lib / batik / batik-ext.jar: lib / batik / batiksvggen.jar: lib / batik / batik-util.jar: lib / batik / batik-xml.jar: lib / commons-lang-2.6.jar: lib / commonsnet-2.2.jar :. -Dartemis.environment = UNIX uk.ac.sanger.artemis.components.ArtemisMain