universidade federal do sul e sudeste do parÁ … … · universidade federal do sul e sudeste do...

119
UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ INSTITUTO DE GEOCIÊNCIAS E ENGENHARIAS FACULDADE DE COMPUTAÇÃO E ENGENHARIA ELÉTRICA CURSO BACHARELADO EM SISTEMAS DE INFORMAÇÃO Vanessa Castro Rezende AVALIAÇÃO DE SOFTWARES PARA PREDIÇÃO DE CLUSTERS GÊNICOS: UMA ANÁLISE in silico COM CIANOBACTÉRIAS DA ORDEM CHROOCOCCALES Marabá-PA 2015

Upload: others

Post on 19-Apr-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ

INSTITUTO DE GEOCIÊNCIAS E ENGENHARIAS

FACULDADE DE COMPUTAÇÃO E ENGENHARIA ELÉTRICA

CURSO BACHARELADO EM SISTEMAS DE INFORMAÇÃO

Vanessa Castro Rezende

AVALIAÇÃO DE SOFTWARES PARA PREDIÇÃO DE CLUSTERS GÊNICOS:

UMA ANÁLISE in silico COM CIANOBACTÉRIAS DA ORDEM

CHROOCOCCALES

Marabá-PA

2015

UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ

INSTITUTO DE GEOCIÊNCIAS E ENGENHARIAS

FACULDADE DE COMPUTAÇÃO E ENGENHARIA ELÉTRICA

CURSO BACHARELADO EM SISTEMAS DE INFORMAÇÃO

Vanessa Castro Rezende

AVALIAÇÃO DE SOFTWARES PARA PREDIÇÃO DE CLUSTERS GÊNICOS:

UMA ANÁLISE in silico COM CIANOBACTÉRIAS DA ORDEM

CHROOCOCCALES

Trabalho de Conclusão de Curso apresentado

como requisito para obtenção do grau de

Bacharel em Sistemas de Informação.

Orientadora: Dr.ª Danielle Costa Carrara

Couto

Co-orientador: Msc. Alex Ranieri Jerônimo

Lima

Marabá-PA

2015

Dados Internacionais de Catalogação-na-Publicação (CIP)

Biblioteca Josineide da Silva Tavares da UNIFESSPA.

Marabá, PA

Rezende, Vanessa Castro

Avaliação de Softwares para Predição de Clusters

Gênicos: Uma Análise in silico com Cianobactérias da

Ordem Chroococcales/ Vanessa Castro Rezende; orientador,

Danielle Costa Carrara Couto. — 2015.

Trabalho de Conclusão de Curso (Graduação) -

Universidade Federal do Sul e Sudeste do Pará, Campus

Universitário de Marabá, Instituto de Geociências e Engenharias,

Faculdade de Educação e Engenharia Elétrica, Curso

Bacharelado em Sistemas de Informação, Marabá, 2015.

1. Software - Avaliação. 2. Bioinformática. 3. Genoma. 4.

Cianobactérias. I. Couto, Danielle Costa Carrara, orient. II.

Título.

CDD: 21. ed.: 005.1

AGRADECIMENTOS

Primeiramente agradeço a Deus, reconhecendo em todo o meu percurso a sua mão grandiosa

sobre a minha vida. Agradeço ainda pela saúde, sabedoria e forças para desenvolver este

trabalho mediante todas as dificuldades.

A minha orientadora, Profa. Dra. Danielle Costa Carrara Couto, que sempre se fez presente, me

auxiliando e apoiando, além de me apresentar a bioinformática que me deixou fascinada.

Ao meu co-orientador, Prof. Msc. Alex Ranieri Jerônimo Lima, por me ajudar tantas vezes e por

ter me recebido de forma acolhedora em seu laboratório. Obrigada por todo apoio durante a

execução deste trabalho.

A equipe do Laboratório de Tecnologia Biomolecular – LTB da Universidade Federal do Pará, por

ter me auxiliado no processo de elaboração desse trabalho e por fornecer as informações e

diretrizes principais, sem as quais esse trabalho não seria desenvolvido.

A Universidade Federal do Sul e Sudeste do Pará, pela minha formação profissional.

Aos meus pais, Alessandra Castro Rezende e Euvaldo Sobreira Rezende, pela força e

incentivo que nunca faltaram em toda a minha vida. Agradeço a Deus por nunca me

abandonarem e sempre me estimularem a prosseguir, me apoiando em momentos difíceis, não

só durante essa graduação como em toda a minha vida. Vocês merecem o melhor que eu posso

ser e espero que algum dia eu possa tentar recompensá-los por tudo que sempre fazem por

mim. Por isso dedico não só essa vitória, mas todas as vitórias e que ainda vou alcançar.

A minha irmã Maressa Castro Rezende, que sempre mostrou seu sorriso doce e seu olhar de

criança inocente e feliz, me dando forças quando estava triste ou frustrada.

As minhas avós Alda e Edna, meus tios e primos por sempre me apoiarem nessa jornada.

Aos meus amigos, especialmente minha best Aryane Pinheiro Vilhena. Somos amigas

centenárias e desde o começo de tudo estamos juntas, partilhando alegrias, tristezas e

esperanças. Agradeço por sempre estar presente na minha vida, espero que Deus reserve

muitas coisas maravilhosas para o seu futuro.

Ao meu namorado Jairo Vinícius de Oliveira, que me apoiou e teve muita paciência quando

foi necessário, ou seja, infinitas vezes. Agradeço por sua força e as milhares de vezes que me

encorajou quando estava desanimada, deixando às vezes os seus problemas para me ajudar.

Aos meus filmes, séries e bandas favoritas que sempre fizeram parte dessa jornada árdua, me

garantindo momentos de descontração e alegria, com frases como ―Que a força esteja com

você!‖, precisei.

A todos que participaram direta ou indiretamente desse trabalho. Obrigada!

i

SUMÁRIO

AGRADECIMENTOS ................................................................................................... v

SUMÁRIO ....................................................................................................................... i

LISTA DE FIGURAS .................................................................................................... iv

LISTA DE ABREVIATURAS ....................................................................................... v

LISTA DE TABELAS .................................................................................................. vii

RESUMO ........................................................................................................................ 8

ABSTRACT ................................................................................................................... 9

1. INTRODUÇÃO .................................................................................................. 10

1.1. JUSTIFICATIVA ........................................................................................... 11

1.2. OBJETIVOS ................................................................................................... 12

1.3. ORGANIZAÇÃO DO TEXTO ......................................................................... 12

2. FUNDAMENTAÇÃO TEÓRICA ..................................................................... 14

2.1. GENÔMICA ................................................................................................... 14

2.1.1. Bancos de Dados Genômicos ......................................................................... 16

2.2. PROTEÔMICA .............................................................................................. 20

2.2.1. Bancos de Dados Proteômicos ........................................................................ 21

2.3. PRODUTOS NATURAIS .............................................................................. 23

3. TRABALHOS CORRELATOS ......................................................................... 27

3.1. EXPLORANDO GENOMAS DE CIANOBACTÉRIAS PARA A

BIOSSÍNTESE DE PRODUTOS NATURAIS ................................................................... 27

3.2. A MINERAÇÃO DE GENOMA DEMONSTRA A AMPLA OCORRÊNCIA

DE CLUSTERS GÊNICOS NA CODIFICAÇÃO DE BACTERIOCINAS EM

CIANOBACTÉRIAS ........................................................................................................... 31

ii

3.3. A MINERAÇÃO DE GENOMA REVELA POTENCIAL BIOATIVO DE

BACTÉRIAS GRAM-NEGATIVAS MARINHAS ............................................................ 34

3.4. A MINERAÇÃO DE GENOMA DE PRODUTOS NATURAIS PARA

AGRUPAMENTOS DE GENES BIOSSINTÉTICOS NA SUBSEÇÃO V DE

CIANOBACTÉRIAS ........................................................................................................... 37

4. MATERIAIS E MÉTODOS ............................................................................... 42

4.1. FERRAMENTAS DE PREDIÇÃO DE PRODUTOS NATURAIS ................. 42

4.1.1. antiSMASH ..................................................................................................... 43

4.1.2. NP.searcher .................................................................................................... 44

4.1.3. NaPDoS .......................................................................................................... 45

4.1.4. DoBISCUIT .................................................................................................... 46

4.1.5. ClusterFinder .................................................................................................. 48

4.2. CIANOBACTÉRIAS ........................................................................................ 49

4.2.1. Genomas Utilizados ........................................................................................ 50

4.2.2. Formatos de Arquivos de Genomas ................................................................ 51

4.2.2.1. Formato FASTA ........................................................................................... 51

4.2.2.2. Formato GBK ............................................................................................... 52

4.3. PIPELINE .......................................................................................................... 54

5. RESULTADOS E DISCUSSÕES ...................................................................... 59

5.1. EXECUÇÃO NA FERRAMENTA ANTISMASH ....................................... 59

5.2. EXECUÇÃO NA FERRAMENTA NP.SEARCHER .................................... 69

5.3. EXECUÇÃO NA FERRAMENTA JEMBOSS ............................................. 70

5.4. EXECUÇÃO NA FERRAMENTA NAPDOS ............................................... 72

5.5. EXECUÇÃO NA FERRAMENTA DOBISCUIT ......................................... 74

5.6. RESULTADO GERAL DAS EXECUÇÕES NAS FERRAMENTAS DE

PREDIÇÃO... ....................................................................................................................... 76

6. CONSIDERAÇÕES FINAIS ............................................................................. 77

iii

6.1. TRABALHOS FUTUROS ............................................................................. 79

REFERÊNCIAS ........................................................................................................... 80

Anexo A: Resultado da Execução doBiscuit Local com a cianobactéria Synechocystis

sp. CACIAM O5 ....................................................................................................................... 87

Anexo B: Resultado da Execução doBiscuit Local com a cianobactéria Cyanobium sp.

CACIAM 14 ............................................................................................................................. 88

Anexo C: Resultado da Execução doBiscuit Local com a cianobactéria Synechocystis

sp. PCC 6803 ............................................................................................................................ 96

Apêndice I: Manual de Instalação e Utilização do antiSMASH Local 1.2 ................ 102

Apêndice II: Manual de Instalação e Utilização do NP.searcher Local ..................... 106

Apêndice III: Manual de Instalação e Uso da Ferramenta DoBiscuit ........................ 109

Apêndice IV: Manual de Instalação e Execução da Ferramenta Artemis .................. 112

iv

LISTA DE FIGURAS

Figura 1: Página inicial da plataforma NCBI 18

Figura 2: Formato do arquivo Genbank 19

Figura 3: Página Inicial da plataforma UniProtKB 22

Figura 4: Organização dos agrupamentos de genes em cianobactérias 34

Figura 5: Exemplos de grupos de genes de bacteriocina da Subseção V de cianobactérias 40

Figura 6: Página inicial da plataforma antiSMASH 44

Figura 7: Página inicial do sistema NP.searcher 45

Figura 8: Página inicial da ferramenta NaPDoS 46

Figura 9: Página inicial do banco de dados DoBISCUIT 47

Figura 10: Trecho de um arquivo FASTA referente a cianobactéria Cyanobium sp. CACIAM

14 52

Figura 11: Trecho de um arquivo GBK referente a cianobactéria Cyanobium sp. CACIAM 14

.............................................................................................................................................53

Figura 12: Pipeline de Predição de Clusters Gênicos 55

Figura 13: Parâmetros utilizados na execução do antiSMASH online 56

Figura 14: Parâmetros utilizados na execução do NapDos online 57

Figura 15: Interface da execução do Artemis 58

Figura 16: Representação antiSMASH da homologia entre os clusters gênicos similares aos

contidos no genoma da Synechocystis sp. PCC 6803 69

Figura 17: Interface do JemBoss rodando o comando Coderet nos arquivos gbk 72

Figura 18: Resultado da corrida NapDos online com o genoma do cianobactéria Cyanobium

sp.CACIAM 5 73

Figura 19: Resultados da corrida NapDos online com o genoma do cianobactéria Cyanobium

sp. CACIAM 14 73

Figura 20: Resultado da corrida NapDos online com o genoma da cianobactéria

Synechocystis sp. PCC 6803 74

v

LISTA DE ABREVIATURAS

antiSMASH Antibiotics and Secondary Metabolite Analysis Shell

BGCs Biosynthetic Gene Clusters (Agrupamento de Genes Biossintéticos)

BLAST Basic Local Alignment Tool (Ferramenta de Alinhamento Básico Local)

CACIAM Coleção Amazônica de Cianobactérias e Microalgas

CDS Coding Sequence (Sequencia Codificante)

CyanoGEBA Encyclopedia Genomic of Bacteria and Archaea (Enciclopédia

Genômica de Bactérias e Archaeas)

DDBJ DNA Data Bank of Japan (Banco de Dados de DNA do Japão)

DNA Deoxyribonucleic Acid (Ácido Desoxirribonucleico)

DoBISCUIT Database of Biosynthesis Clusters Curated and Integrated (Banco de dados de

clusters biossintéticos)

EBI European Bioinformatics Institute (Instituto Europeu de Bioinformática)

EMBL European Molecular Biology Laboratory (Laboratório Europeu de Biologia

Molecular)

ENA European Nucleotide Archive (Arquivo Europeu de Nucleotídeos)

FASTA Fast Alignment Tool (Ferramenta de Alinhamento Rápido- Formato

utilizado para armazenar sequências de bases e de aminoácidos em

arquivo texto)

FTP File Transfer Protocol (Protocolo de Transferência de Arquivo)

GenBank Banco de dados público do National Center for Biological Information, do

Instituto de Saúde dos Estados Unidos da América.

GBK Extensão de arquivo que armazena sequências Genéticas.

HMM Hidden Markov Model (Modelo Oculto de Markov)

INSDC International Nucleotide Sequence Database Colaboration (Colaboração

Internacional de Base de Dados de Sequências de Nucleotídeos)

JGI Joint Genome Institute

KS Cetosintase (Domínio de condensação de PKS)

LTB Laboratório Tecnológico Biomolecular

MEGAN Metagenome Analyse

mRNA RNA mensageiro

NaPDoS Natural Product Domain Seeker (Preditor de clusters biossintéticos)

NCBI National Center for Biotechnology Information (Centro Nacional de

Informações em Biotecnologia)

vi

NGS Next-Generation Sequencing (Tecnologias de sequenciamento de nova

geração)

NIG Institute National of Genetic (Instituto Nacional de Genética)

NIH Institute National of Health (Institutos Nacionais de Saúde)

NRP Nonribosomal Peptide (Peptídeo não-ribossomal)

NRPS Nonribosomal Peptide-Synthetase (Sintase de Peptídeo não

Ribossomal)

ORF Open Reading Frames (Sequência codificadora de proteína)

PANDA The Protein and Nucleotide Database Group (Banco de Proteínas e

Nucleotídeos)

Pb Pares de bases

PCR Polimerase Chain Reaction Reação em cadeia da polimerase

PDB Protein Database Bank (Banco de Dados de Proteína)

PGAAP Prokaryotic Genome Automatic Annotation Pipeline

PIR Protein Information Resource

PK Polyketides (Policetídeos)

PKS Polyketides-synthetase (Policetídeo Sintase)

PRF Protein Research Foundation (Fundação de Pesquisa de Proteínas)

PTMs Post-translational Modifications (Modificações pós-traducionais)

RAST Rapid Annotation using Subsystem Technology

RNA Ribonucleic Acid (Ácido Ribonucléico)

UFPA Universidade Federal do Pará

UNIFESSPA Universidade Federal do Sul e Sudeste do Pará

vii

LISTA DE TABELAS

Tabela 1: Clusters de metabólitos secundários identificados na cianobactéria Cyanobium sp.

CACIAM 14 através do antiSMASH online 59

Tabela 2: Quantidade de produtos dectados por formato de arquivo na execução online do

antiSMASH 3.0.2 na cianobactéria Cyanobium sp. CACIAM 14 61

Tabela 3: Clusters de metabólitos secundários identificados na cianobactéria Cyanobium sp.

CACIAM 14 através do antiSMASH local 62

Tabela 4: Quantidade de produtos dectados por formato de arquivo na execução local do

antiSMASH 2.0 na cianobactéria Cyanobium sp. CACIAM 14 62

Tabela 5: Clusters de metabólitos secundários identificados na cianobactéria Synechocystis

sp. CACIAM 05 do antiSMASH online 63

Tabela 6: Quantidade de produtos dectados por formato de arquivo na execução local do

antiSMASH 2.0 na cianobactéria Synechocystis sp. CACIAM 05 64

Tabela 7: Clusters de metabólitos secundários identificados na cianobactéria Synechocystis

sp. CACIAM 05 do antiSMASH local 65

Tabela 8: Clusters de metabólitos secundários identificados na cianobactéria Synechocystis

sp. PCC 6803 do antiSMASH online 66

Tabela 9: Quantidade de produtos dectados por formato de arquivo na execução local do

antiSMASH 2.0 na cianobactéria Synechocystis sp. PCC 6803 68

Tabela 10: Clusters de metabólitos secundários identificados na cianobactéria Synechocystis

sp. PCC 6803 do antiSMASH local 68

Tabela 11: Número Total de Produtos Naturais preditos por cada Ferramenta 76

RESUMO

Cianobactérias são microorganismos que ganham cada vez mais atenção por sua capacidade

de produzir uma grande variedade de substâncias de interesse biotecnológico, ou seja,

produtos naturais que são moléculas orgânicas isoladas a partir de organismos vivos. Para

auxiliar a análise do grande número de informações genéticas envolvidas na síntese de

produtos naturais, sugiram diversas ferramentas in silico que foram desenvolvidas por

bioinformatas, buscando auxiliar e otimizar este processo. O presente trabalho teve como

objetivo central a realização da avaliação de desempenho e resultados de algumas das

ferramentas in silico de predição de clusters gênicos que atualmente são mais utilizadas pelos

pesquisadores na busca por produtos naturais em arquivos biológicos correspondentes a

diversos genomas. O trabalho teve como objetivos específicos a realização de um estudo

teórico acerca dos assuntos relacionados às principais teorias da área, seguidas da pesquisa

por ferramentas de bioinformática que realizassem a predição de produtos naturais, realizando

uma análise comparativa entre técnicas para predição de clusters gênicos selecionados nos

trabalhos da literatura e a aplicação de tais técnicas e ferramentas para a caracterização de

clusters gênicos nos genomas de cianobactérias da Amazônia: Cyanobium sp. CACIAM 14 e

Synechocystis sp. CACIAM 05, sendo que ambos os genomas foram cedidos pelo LTB

(Laboratório de Tecnologia Biomolecular) da Universidade Federal do Pará. Também foi

utilizado o genoma da Synechocystis sp. PCC 6803 que é amplamente utilizado na

comunidade para realização de testes. Por fim, um pipeline foi gerado para caracterizar o

processo de identificação de clusters gênicos utilizando ferramentas como: antiSMASH,

NP.searcher, NapDos e DoBISCUIT. Através desse estudo concluiu-se que ferramentas de

predição de clusters gênicos servem para auxiliar os bioinformatas e a comunidade biomédica

e/ou biológos na detecção de produtos naturais, reduzindo custos referentes a pesquisas in

vitro, além de maximizar o tempo e reduzir esforços na análise de genomas, verificando

também que as predições de uma mesma ferramenta podem variar de acordo com o tipo de

anotação realizada no arquivo biológico dado como entrada. Contudo, a predição com as

ferramentas de detecção de clusters gênicos deve estar alinhada a análise manual para uma

validação mais eficaz dos resultados.

Palavras chaves: Genoma, Ferramentas de Predição de Clusters Gênicos, Banco de Dados

Biológicos e Cianobactérias.

ABSTRACT

Cyanobacteria are microorganisms that increasingly are gaining attention due to their ability

to produce a large variety of substances of biotechnological interest, in other words, natural

products are organic molecules isolated from living organisms. To aid the analysis of large

number of genetics informations involved in the synthesis of natural products, several tools in

silico have been developed by researchers, seeking facilitate and optimize the process of

prediction. This work had as main objective the achievement of the performance evaluation

and results of some of the tools in silico for prediction of gene clusters that currently are most

used by researchers in the search for natural products in biological files corresponding to

various genomes. The specific purposes of this study was the carrying out a theoretical study

about main theories of the area of bioinformatic, followed by the search for tools that make

prediction of natural products, making an comparative analysis of techniques for prediction of

gene clusters selected in the literature works and application of the techniques and tools for

the characterization of gene clusters in the cyanobacterial genomes of Amazon: Cyanobium

sp. CACIAM 14 and Synechocystis sp. CACIAM 05, and both genomes were provided by

LTB (Laboratory of Biomolecular Technology) of the Universidade Federal do Pará. The

genome of Synechocystis sp. PCC 6803 also was been used, because it is widely used by the

community for tests. Finally, a pipeline was generated to characterize of the gene clusters

identification process using tools such as: antiSMASH, NP.searcher, NapDos and

DoBISCUIT. Through this study it was concluded that the tools of prediction of gene clusters

serve to help researchers, the community of biomedical and/or biologists in the detection of

natural products, reducing costs with in vitro research, as well as maximizing the time and

reduce efforts with genomes analysis, also checking that results of the predictions with same

tool may vary according to the type of annotation file held in the biological data as an input.

However, the prediction of gene clusters with the detection tools must be aligned with manual

analysis for an validation more effective of the results.

Key words: Genome, Tools Prediction of Gene Clusters, Database Biological, Cyanobacteria.

10

1. INTRODUÇÃO

Com o avanço da biologia molecular nas últimas décadas, grandes quantidades de

dados se tornaram disponíveis, ocasionando na criação de bancos de dados e ferramentas de

análise para se adaptar ao crescente volume de informações, permitindo a construção de

modelos mais amplos, capazes de lidar com aspectos e fenômenos biológicos até então

inacessíveis (VERLI, 2014).

A determinação do sequenciamento do primeiro genoma1

completamente terminado

deu início à era da genômica (CLAVERIE et al., 2007). A Genômica é uma subdivisão do

campo da genética, gerada pela união da biologia clássica e da biologia molecular, com o

objetivo de sequenciar e conhecer os genes, as interações gênicas, os elementos genéticos e as

estruturas dos genomas (KLUG et al., 2010).

O que torna a genômica diferente de outras pesquisas biológicas é o fato dela utilizar

informações em larga escala, assim como o uso de computadores potentes para pesquisar

características em dezenas de milhares de genes (WATSON et al., 2009). A genômica ainda

possui várias subdivisões, entre as principais estão a Genômica Funcional, responsável por

descrever as atividades dos genes e proteínas, e a Genômica Comparativa, que busca conhecer

as relações e a homologia entre as sequências genéticas.

Alguns genes atuam, de forma que, uma determinada substância precursora seja

desdobrada em substratos até dar origem a um produto biológico final. Tais genes produzem

enzimas e o ciclo para produção de um produto final é denominado como via biossintética.

Diversos genomas que foram sequenciados contribuíram para o entendimento e busca de

novos genes biossintéticos (LEWIS, 2000; BURJA, 2001; BARACALDO, 2005; DAHMS et

al., 2006; ABED et al., 2009).

O sequenciamento de genomas revelou que bactérias possuem mais agrupamentos de

genes biossintéticos (BGCs) do que o previsto, com base no número de metabólitos

secundários descobertos até hoje. Metabólitos secundários são produtos naturais produzidos

por certos grupos de micro-organismos e plantas, possuindo grande importância para a

indústria farmacêutica e agropecuária (SCHUCH, 2007).

1 Genoma é o conjunto de informações hereditária codificadas no DNA de um organismo, incluindo as

sequências codificadoras de proteínas e não proteínas (KLUG et al., 2010).

11

Embora este reservatório biossintético tenha fomentado o interesse em novas

ferramentas para a descoberta de produtos naturais, continua a existir uma lacuna entre a

detecção de agrupamentos de genes e descoberta de compostos (DUNCAN et al., 2015).

Sendo assim, agrupamentos de genes recentemente identificados podem ser analisados

para prever a estrutura singular de um produto ou podem ser utilizados para a expressão

heteróloga2. Eventualmente, espera-se que os produtos naturais identificados pela mineração

de genoma sejam testados e utilizados por suas propriedades benéficas e bioatividades

(MICALLEF et al., 2014).

Uma grande quantidade de genes envolvidos na síntese de produtos naturais tem sua

estrutura definida, sendo assim possível predizer a especificidade do substrato através de

ferramentas in silico (YADAV; GOKHALE; MOHANTY, 2003).

Nesse contexto, um dos objetivos mais importantes da pesquisa moderna por

metabólitos secundários é buscar prever com precisão estruturas de produtos naturais e vias

biossintéticas a partir de sequências de clusters gênicos, com o objetivo de encontrar possíveis

novos fármacos e biocombustíveis com o auxílio das ferramentas de predição

computadorizadas.

1.1. JUSTIFICATIVA

Devido à conservação entre os clusters gênicos de produtos naturais, é possível aplicar

a genômica comparativa para identificar estes clusters no genoma do organismo alvo,

possibilitando até mesmo prever parcialmente o produto natural a ser formado pelo dado

cluster gênico, facilitando a busca de metabólitos inéditos e inovadores. Outro fator positivo é

a capacidade de buscar genes repórteres3, por serem genes bem conservados em organismos

com clusters gênicos biossintéticos (OWEN et al., 2012).

A enorme acumulação de dados de sequenciamento de genomas fez com que muitos

pesquisadores de produtos naturais se voltassem para abordagens in silico com o objetivo de

avaliar rapidamente o potencial natural de um organismo recém-sequenciado. É nesse

contexto que várias ferramentas de bioinformática foram desenvolvidas (MICALLEF et al.,

2014).

2 Expressão heteróloga é quando um gene específico é expresso em um determinado organismo hospedeiro, com

o objetivo principal de gerar grandes quantidades de proteína recombinante. 3 Genes repórteres são aqueles que codificam para uma proteína, geralmente com atividade enzimática, cujo

produto é facilmente detectável em células eucarióticas, sendo usado como marcador para determinar a atividade

de outro gene, além de funcionar como gene complementar ao gene de seleção (FCBA, 2015).

12

Algumas ferramentas de bioinformática estão disponíveis online, e podem identificar

clusters biossintéticos em contigs4 e genomas, por intermédio da busca por domínios

essenciais e/ou genes repórteres, diminuindo principalmente custos de pesquisas com a

mesma busca sendo realizada com organismos vivos em laboratório.

Finalmente, é fundamental enfatizar a importância de um método simples e rápido

para predição computacional de clusters biossintéticos de genomas ambientais, além de

direcionar esforços na busca de metabólitos inovadores, reduzindo assim a taxa de

redescoberta de compostos já comercializáveis, assim como os gastos perdidos nesse processo

(COUTO, 2014).

1.2. OBJETIVOS

O objetivo geral deste trabalho é avaliar ferramentas e técnicas para identificação de

clusters gênicos biossintéticos utilizando-se da genômica comparativa e funcional, para

direcionar a descoberta de produtos naturais nos dados de três cianobactérias da ordem

Chroococcales.

Objetivos Específicos:

● Pesquisar ferramentas de bioinformática que realizem a predição de produtos naturais;

● Fazer análise comparativa entre técnicas para predição de clusters gênicos

selecionados em trabalhos correlatos;

● Testar técnicas e ferramentas para a caracterização de clusters gênicos nos genomas da

Cyanobium CACIAM 14, Synechocystis sp. PCC 6803 e no draft5 da Synechocystis sp.

CACIAM 05;

● Gerar um pipeline para caracterização de clusters gênicos em cianobactérias utilizando

ferramentas de bioinformática.

1.3. ORGANIZAÇÃO DO TEXTO

Além desta introdução previamente apresentada, as seções deste trabalho estão

distribuídas da seguinte forma: a Seção 2 apresenta a Fundamentação Teórica, descrevendo as

áreas de conhecimento que compõe o presente trabalho; a Seção 3 trata dos Trabalhos

4 Contigs são formados por trechos contínuos de DNA que se sobrepõem e são derivados de uma única fonte de

material genético, a partir da qual uma sequência completa pode ser deduzida, gerando sequências montadas

(PEIXOTO, 2011). 5 Draft é um genoma que ainda não foi completamente montado.

13

Correlatos, contendo os trabalhos da literatura que foram utilizados para efeito de pesquisa e

comparação com o presente trabalho. A Seção 4 intitulada como Materiais e Métodos possui

os procedimentos metodológicos aplicados nesse trabalho. Já a Seção 5 apresenta os

Resultados e Discussões sobre o trabalho desenvolvido, baseado na metodologia aplicada e,

por fim, as Considerações Finais são apresentadas na Seção 6.

14

2. FUNDAMENTAÇÃO TEÓRICA

À medida que os projetos de sequenciamento de DNA se disseminaram e cada vez

mais sequências genéticas foram geradas, apareceram inúmeras disciplinas novas na área

biológica. Entre elas está a genômica, responsável por sequenciar os genomas e estudar a

estrutura, a função e a evolução dos genes e genomas (LESK, 2008).

Outra disciplina, a proteômica, é proveniente da genômica. A proteômica identifica o

grupo de proteínas presentes em uma célula, sob um dado contexto, além de estudar

adicionalmente a modificação pós-traducional6 dessas proteínas, sua localização no interior

das células e as interações proteína-proteína que ali ocorrem. Para armazenar, recuperar e

analisar a quantidade maciça de dados gerados pela genômica e pela proteômica foi criado um

subcampo especializado da tecnologia da informação chamado bioinformática, cuja finalidade

é desenvolver hardwares e softwares para processar dados nucleotídicos e protéicos (KLUG

et al., 2010).

O volume de informações da genômica e proteômica necessita ser interpretado a partir

de métodos e técnicas da bioinformática, um dos maiores alvos da interpretação desses dados

é a identificação de novos produtos naturais, principalmente por se tornarem novos fármacos,

antitumorais, entre outros. Sendo assim, os estudos relacionados ao desenvolvimento de

novos medicamentos a partir de produtos naturais são primordiais para a descoberta de novos

compostos que podem auxiliar no tratamento de diversas doenças (BRANDÃO et al., 2012).

2.1. GENÔMICA

O termo genoma, significando o conjunto completo de informações codificadas no

DNA de uma unidade celular de um organismo, incluindo tanto os genes como as sequencias

não codificadoras, foi cunhado em 1920, época em que os geneticistas começavam a passar

do estudo de genes individuais para um enfoque mais panorâmico (KLUG et al., 2010).

Em 1977, quando algumas técnicas de DNA recombinante foram elaboradas, Fred

Sanger e parceiros, estabeleceram o campo da genômica através do estudo dos genomas,

usando um modelo de sequenciamento de DNA recém-desenvolvido, com o objetivo de

sequenciar o genoma de 5.400 nucleotídeos do vírus phi X174. Em um curto período, outros

genomas virais foram sequenciados, contudo, tais técnicas eram consideravelmente lentas e

6 Modificações pós-traducionais (PTMs) são eventos de processamento covalente que podem alterar o tamanho,

composição, função e/ou localização das proteínas (VEAS, 2013).

15

trabalhosas, restringindo sua aplicação a genomas pequenos. No decorrer das décadas

seguintes, a expansão de métodos de sequenciamento de DNA automatizados por meio da

computação, tornou possível o sequenciamento de genomas de organismos complexos em

larga escala, inclusive dos 3,1 bilhões de nucleotídeos que constituem o genoma humano. As

informações contidas nos genomas podem originar novos métodos de diagnóstico, formulação

de novos medicamentos, vacinas, prevenção e tratamentos mais eficazes contra diversas

doenças (KLUG et al., 2010).

As novas tecnologias de sequenciamento de DNA, denominadas de tecnologias de

sequenciamento de nova geração (do inglês Next-Generation Sequencing - NGS), começaram

a ser comercializadas em 2005 e estão evoluindo muito rapidamente. Elas promovem o

sequenciamento de DNA em plataformas capazes de gerarem informação de milhões de pares

de bases em um único procedimento (TOLEDO-ARANA; SOLANO, 2010).

O desenvolvimento de tecnologias de DNA recombinante, associado ao advento dos

métodos de sequenciamento de DNA automatizados por computador, é responsável pela

aceleração do campo da genômica. Nesse contexto, as tecnologias genômicas se

desenvolveram tão rapidamente que a pesquisa biológica moderna agora está experimentando

uma revolução genômica. Das novas subdisciplinas da genômica, as principais compreendem

a genômica estrutural, genômica funcional e a genômica comparativa (KLUG et al., 2010).

A genômica estrutural visa sequenciar genomas e analisar as sequencias nucleotídicas,

buscando identificar genes e outras sequências importantes, como regiões reguladoras de

genes. Por outro lado, a genômica funcional é responsável por estudar as alterações das

atividades genômicas em diferentes estágios do desenvolvimento e sob diferentes condições

ambientais. Já a genômica comparativa, interliga a estrutura e a funcionalidade dos genomas,

buscando conhecer o grau de relacionamento entre os mesmos, assim como a similaridade

entre sequências e genes, determinando o grau de sintenia7 de espécies correlacionadas

(WATSON et al., 2009).

É nesse cenário que estudos genômicos também têm sido fundamentais para a

compreensão do potencial biotecnológico dos organismos. Basicamente, consiste na avaliação

de seus recursos genéticos, ou seja, o sequenciamento de seu genoma e a caracterização dos

genes (FELÍCIO; OLIVEIRA; DEBONSI, 2012).

7 Sintenia é a presença de dois ou mais loci gênicos, local fixo num cromossomo onde está localizado um

determinado gene ou marcador, no mesmo cromossomo. Também referem-se, por exemplo, à similaridade no

conteúdo e organização entre os cromossomos de diferentes espécies (CARNEIRO; VIEIRA, 2002).

16

2.1.1. Bancos de Dados Genômicos

A Colaboração Internacional de Base de dados de Sequências de Nucleotídeos

(International Nucleotide Sequence Database - INSDC) disponibiliza um repertório de

sequências e é resultado da associação de três bancos de dados parceiros, o Instituto Europeu

de Bioinformática (European Bioinformatics Institute – EMBL), o GenBank do NCBI

(National Center for Biotechnology Information) nos Estados Unidos da América e o Banco

de Dados de DNA do Japão (DNA Data Bank of Japan – DDBJ). Os registros da associação

EMBL/GenBank/DDBJ incluem genes individuais, genomas completos, RNAs, anotações,

sequências expressas, cDNAs8 e sequências sintéticas. Em virtude de sua designação como

sendo um provedor de dados primários, o banco EMBL/DDBJ/GenBank é a fonte inicial de

muitos bancos de dados em biologia molecular (ESPÍNDOLA et al., 2010).

A troca de dados dos bancos parceiros do INSDC ocorre diariamente. Para garantir que

a coleção uniforme e abrangente de informações sequenciadas estará disponível em todo o

mundo, o NCBI (National Center for Biotechnology Information) torna as informações

contidas no GenBank disponíveis sem custo através da Internet, por meio de servidores e

uma ampla gama de serviços de recuperação e análise de bases na web (BENSON et al.,

2014).

O GenBank é acessível através do NCBI, que é uma divisão da Biblioteca Nacional de

Medicina, localizada no campus dos Institutos Nacionais de Saúde (NIH), em Bethesda,

Maryland nos Estados Unidos. O site do NCBI (Figura 1) é responsável por integrar

informações a partir das principais bases de dados de sequências de DNA e proteínas,

juntamente com a taxonomia, genomas, mapeamentos, estruturas proteicas e informações de

domínio, além da literatura biomédica da revista via PubMed. Através do BLAST que é uma

ferramenta de comparação de sequenciamentos disponíveis no NCBI, são fornecidas

pesquisas de similaridade de sequência do GenBank e outros bancos de dados de

sequenciamento (BENSON et al., 2014) .

8 cDNA representa o DNA complementar que sequencia RNA.

17

Figura 1: Página inicial da plataforma NCBI. Fonte: NCBI, 2015

As informações desse banco estão disponíveis em vários programas do NCBI e

também em arquivos no formato texto no seu servidor de arquivos FTP (File Transfer

Protocol). Estes arquivos seguem o padrão definido em conjunto pelo EMBL e recebe o nome

de GenBank. Portanto, o nome GenBank se refere ao mesmo tempo a um banco de dados do

NCBI e a um formato de arquivo como mostra a figura 2 (MIZRACHI, 2010).

18

Figura 2: Formato do arquivo Genbank. Fonte: NCBI, 2015

Segundo Benson et al. (2014), o GenBank é um banco de dados público de sequências

nucleotídicas, apoio bibliográfico e anotação biológica de abrangência, além de conter

publicamente sequências de nucleotídeos para mais de 300.000 espécies formalmente

descritas. Tais sequências são obtidas principalmente através da apresentação de indivíduos

nos laboratórios, submissões de lote de larga escala e projetos de sequenciamento, incluindo

genomas completos e projetos de amostragem ambientais.

O EMBL é um banco de dados europeu primário, onde as sequências genéticas são

submetidas pelos pesquisadores de modo similar ao NCBI GenBank. É um projeto liderado

por Guy Cochrane, líder de um grupo de biólogos, desenvolvedores e cientistas da

computação que mantêm e desenvolvem o Arquivo Europeu de Nucleotídeos (ENA), que

integra o Grupo PANDA (acrônimo de The Protein and Nucleotide Database Group - Banco

de Proteínas e Nucleotídeos) (ENA, 2015).

Já o banco de dados do Japão DDBJ (http://www.ddbj.nig.ac.jp) atua desde 1987,

manipulando recursos públicos de informação genética no Instituto Nacional de Genética

(NIG), fornecendo apresentação, arquivos, pesquisas, serviços de download e análise de dados

19

biológicos. Um dos principais objetivos do DDBJ é apoiar e promover a partilha e utilização

de dados biológicos como um recurso público. O arquivo DDBJ tradicional recolhe

sequências de nucleotídeos anotados para colaborar com o EMBL e o GenBank no NCBI,

como bancos de dados parceiros do INSDC (TATENO, 2012).

Além dos bancos de dados primários, existem os bancos de dados secundários, como o

PIR (Protein Information Resource) ou o UniProtKB, que derivam dos bancos primários, ou

seja, foram formados usando as informações depositadas nos bancos primários (HUNTER et

al., 2009).

Outro exemplo de banco de dados de sequências genômicas secundárias de

nucleotídeos é o Ensembl, uma fonte compreensível de anotações estáveis, em que genes são

anotados por evidências derivadas de proteínas conhecidas, cDNAs e sequências expressas.

Novos genes são determinados pelo sistema de construção de genes, incorporando uma

variedade de métodos, incluindo homologia e predição pela aplicação do HMM9 (Hidden

Markov Model – Modelo Oculto de Markov) (HUBBARD et al.,2005).

O KEGG GENES é um catálogo de genes para todos os genomas completos e alguns

genomas parciais gerados a partir de recursos públicos (KANEHISA; GOTO, 2000). Tal

coleção é parte da Enciclopédia de Kyoto de Genes e Genomas e fornece um conjunto de

bases de dados integradas que pode ser usada para realizar análises em nível de sistema

(KANEHISA et al., 2008).

Atualmente, a infraestrutura de banco de dados públicos abrange uma grande coleção

de dados biológicos heterogêneos, abrindo novas oportunidades para a pesquisa biológica,

biomédica e bioinformática, que trata da integração e processamento computacional destes

dados (LESK, 2008).

A variedade de bancos de dados biológicos é imensa. Geralmente, os bancos de dados

são originados a partir de uma necessidade específica para um projeto e acabam atingindo o

domínio público, devido à relevância das descobertas ou pelas exigências das revistas

especializadas, que muitas vezes condicionam o acesso a esses dados para aceitarem e

publicarem os artigos submetidos. Uma lista de banco de dados biológicos pode ser

encontrada em Oxford Journals | Life Sciences | Nucleic Acids Research | Database Summary

Paper Alpha List (http://www.oxfordjournals.org/nar/database/a/) (COUTO, 2014).

9 Modelo Oculto de Markov (HMM) trata-se de um formalismo Markoviano utilizado para representar situações

nas quais a fonte geradora dos sinais observados encontra-se oculta ao observador. Tal formalismo pode ser

usado tanto para estudar a natureza dessa fonte quanto para ajudar a prever observações futuras (ESPÍNDOLA,

2009).

20

2.2. PROTEÔMICA

Diversos estudos na área biológica têm focado em alterações nos genes, seus

transcritos e produtos proteicos envolvidos em processos celulares importantes, na procura de

marcadores moleculares que contribuam no diagnóstico precoce e tratamento de várias

doenças humanas (BUZOLIN et al., 2012).

Desse modo, para entendimento dos procedimentos relacionados a doenças humanas

com consequentes benefícios para os pacientes, é elementar que em paralelo aos dados

oriundos do genoma e aos dados clínicos, sejam também obtidas informações sobre as

diferenças proteicas. Para discernir tais diferenças é fundamental conhecer o conjunto de

proteínas modificadas pelo genoma, que também pode ser definido como proteoma

(BARBOSA, 2012).

Segundo Lesk (2008), o projeto proteoma é um programa em larga escala que lida de

forma integral com os padrões de expressão de proteínas em sistemas biológicos, de modo a

complementar e suplementar os projetos genoma.

O proteoma, em analogia ao genoma, é o conjunto de proteínas de um organismo. A

proteômica combina identificação, distribuição, interações, dinâmica e padrões de expressão

das proteínas de sistemas vivos. R. Simpson apud Lesk (2008), criou a analogia: se o genoma

é uma lista dos instrumentos em uma orquestra, as proteínas são a orquestra executando uma

sinfonia. É um assunto que envolve um grande volume de informações e depende de técnicas

rápidas de coleta de dados em larga escala. Entre essas técnicas encontram-se a análise com

microarranjos de DNA e a espectrometria de massa (LESK, 2008).

Contudo, o proteoma não se trata somente da soma dos produtos traduzidos a partir

das sequências genômicas, mas também engloba proteínas resultantes de processos pós-

transcricionais e pós-traducionais, assim como complexos produzidos por essas biomoléculas.

Apesar de sua ampla complexidade, o proteoma é dinâmico e seu perfil muda conforme o

status fisiológico e as etapas da diferenciação celular (BARBOSA, 2012).

Logo, para auxiliar os estudos relacionados à proteomas, surge uma nova área, a

proteômica, que é a área científica responsável por lidar com a visualização e quantificação do

conjunto de moléculas de proteínas presentes em um determinado tecido ou organismo

(CLAVERIE et al., 2007).

O termo proteômica alude ao estudo do conjunto dessas moléculas, que são

responsáveis direta ou indiretamente pelo controle da maioria dos processos biológicos, além

de explorar de forma descritiva e quantitativa desde o conjunto de proteínas de uma organela

21

subcelular até aquelas de um ecossistema, suas variações na população, mudanças em

resposta a um ambiente, além de modificações e interações com outras proteínas (BARBOSA,

2012).

2.2.1. Bancos de Dados Proteômicos

No estudo completo das proteínas, integrando estrutura e função, os pesquisadores

utilizam diversos bancos de dados que possam atender os diferentes ramos da proteômica

(ESPÍNDOLA et al., 2010). Dentre os bancos de dados que armazenam informações sobre

proteínas, existem vários bancos de dados secundários, um deles é o UniProtKB (figura 3),

que consiste em um banco de dados onde as informações sobre sequências de proteínas são

anotadas e associadas as informações sobre função, domínios funcionais, proteínas homólogas

e outros (BELL; COLLISON; LORD, 2013).

Figura 3: Página Inicial da plataforma UniProtKB. Fonte: UniProtKB, 2015

A anotação de proteínas no UniProtKB é bastante completa. A curadoria busca

adicionar o máximo de informações possíveis relacionadas à proteína no UniProtKB e, para

isso, os curadores fazem uso principalmente de publicações sobre as moléculas em questão. O

banco também é capaz de produzir a menor redundância possível com relação às entradas de

proteínas, tentando incorporar todo o dado de uma determinada proteína em uma única

entrada para cada organismo (COUTO, 2014).

22

Já o banco de dados Entrez Protein, é disponibilizado pelo NCBI e compilado através

de uma variedade de fontes, além de conter sequências de proteínas submetidas aos bancos

PIR (Protein Information Resource), UniProtKB/Swiss-Prot, PRF (Protein Research

Foundation) e o PDB (Protein Database Bank) (ESPÍNDOLA et al., 2010).

O Pfam (http://pfam.sanger.ac.uk) é um banco de dados de famílias de proteínas com

elementos estruturais e funcionais comuns (FINN et al., 2008). Tais famílias são

representadas pelos alinhamentos múltiplos de sequências e modelos ocultos de Markov, que

são modelos probabilísticos utilizados para a inferência estatística de homologia, construído a

partir de um conjunto de sequências alinhadas representante de familiares definidos pelo

curador. Os dados do Pfam estão disponíveis em uma variedade de formatos, que incluem

flatfiles (derivado do banco de dados MySQL) e depósitos de tabela relacional, sendo que

ambos podem ser baixados via FTP através do site (ftp://ftp.sanger.ac.uk/pub/databases/Pfam)

(FINN et al., 2014).

O banco de dados Interpro integra diferentes bases de dados especializadas (MULDER

et al., 2007), um recurso de bioinformática que permite a busca simultânea em diferentes

banco de dados de domínio de proteínas, através de SRS (Sistema de Recuperação de

Sequência) ou o Oracle DBMS (ZDOBNOV et al., 2002).

Entre os bancos de proteínas outrora citados, o RefSeq se destaca por ser um dos

bancos de dados secundários mais utilizados mundialmente por biólogos, possuindo como

objetivo principal a produção de um conjunto não redundante de sequências de DNA

genômico, transcritos (cDNA) e de proteínas para diversos organismos. Para cada gene

conhecido de um determinado organismo, o banco possui uma única entrada. Ademais, ele

expressa os dados dos genes e proteínas associadas a diversas informações úteis, a exemplo,

sua função, análises de mutação, polimorfismos conhecidos, entre outros (PRUITT et al.,

2012).

O RefSeq foi criado e é sustentado pelo NCBI por curadoria manual, isto é, cada

sequência é analisada por pesquisadores treinados, as informações relevantes são adicionadas

à entrada RefSeq do banco de dados. Esse banco também apresenta referências cruzadas com

outros bancos de dados, permitindo que outras informações adicionais sejam relacionadas

com uma determinada sequência de biomoléculas, sendo ainda capaz de reunir vários dados

diferentes em uma plataforma consistente, apresentando um conjunto de padrões e

convenções comuns (COUTO, 2014).

23

Finalmente, o banco de dados de proteínas (GenPept) é classificado como um banco

do GenBank, que é composto por um conjunto de coleções de sequências de proteínas, assim

como suas características. O GenPept foi produzido pelo NCBI, como parte de uma

colaboração internacional com o EMBL e a Biblioteca de dados do Instituto Europeu de

Bioinformática (EBI). Este sistema de recuperação foi compilado a partir de uma variedade de

fontes, incluindo UniProtKB/SwissProt, PIR, PRF, PDB, e traduções de regiões codificantes

anotadas no GenBank e RefSeq (METALIFE, 2015).

2.3. PRODUTOS NATURAIS

As diversidades naturais sempre aguçaram no ser humano um fascínio, não somente

pelos recursos oferecidos para sua alimentação, mas também por ser uma de suas principais

fontes de aprendizado. Buscando incessantemente compreender as leis naturais e traspor as

barreiras à sua sobrevivência, o homem chegou a atual fase de desenvolvimento científico,

mesmo após os avanços tecnológicos observados nos dias de hoje (VIEGAS JUNIOR et al.,

2006).

A procura pelo alívio e cura de doenças através da ingestão de ervas e folhas, talvez

tenha sido uma das primeiras formas de aplicação dos produtos naturais, que são utilizados

pela humanidade desde tempos imemoriais. A história do desenvolvimento de diversas

civilizações é farta em amostras da utilização de recursos naturais na medicina para controle

de pragas e a criação de mecanismos de defesa. Um exemplo desse desenvolvimento é a

medicina tradicional chinesa, que se amplificou de tal forma que até hoje diversas espécies e

preparados vegetais medicinais são estudados na busca pelo entendimento de seu mecanismo

de ação e no isolamento de princípios ativos (VIEGAS JUNIOR et al., 2006).

Produtos naturais são substâncias frequentemente constituídas por estruturas químicas

complexas e com uma orientação espacial bem definida, podendo atuar como modelos

estruturais para síntese de novas substâncias ou protótipos ativos. Estes produtos naturais,

também denominados metabólitos secundários ou compostos bioativos, são característicos e

até mesmo únicos para determinados grupos específicos de organismos, e são sintetizados

para interagir com eficácia com seus alvos biológicos (KINGSTON, 2011; UNESP, 2015).

Neste contexto, os produtos naturais vêm recuperando espaço e importância na

indústria farmacêutica como fonte inspiradora de novos padrões moleculares bioativos. Na

Europa, a fitoterapia já é parte da medicina tradicional, sendo que extratos de plantas e

24

componentes ativos, além de produtos medicinais acabados, estão descritos em muitas

farmacopeias (VIEGAS JUNIOR et al., 2006).

O século XX apresentou um avanço extraordinário na pesquisa de produtos naturais,

especialmente de plantas e micro-organismos no campo da oncologia propiciando a

descoberta de diversas substâncias utilizadas atualmente na terapêutica antineoplásica10

. A

maioria dos fármacos anticâncer introduzidos na terapêutica nas últimas décadas tem sua

origem nos produtos naturais (LOTUFO et al., 2010), mostrando que essa fonte é muito

importante nos estudos de desenvolvimento de novos medicamentos (BRANDÃO et al.,

2012).

Atualmente, cerca de 60% dos agentes antitumorais e antibióticos disponíveis no

mercado ou em estágios de avaliação clínica são de origem natural. Nos últimos 10 anos,

aproximadamente 500 compostos químicos novos foram aprovados pelas instituições

reguladoras de todo o mundo. Dessas, em torno de 50% são de origem natural. Tais dados

evidenciam que o Brasil, que abrange grande fração da biodiversidade mundial, pode prover-

se deste patrimônio natural se esforços forem enviados para a pesquisa na descoberta de

potenciais produtos biotecnológicos desta biodiversidade (UNESP, 2015).

Tal biodiversidade disponibiliza inúmeras possibilidades para o desenvolvimento de

pesquisas que propiciem, simultaneamente, sua preservação, com base em seu conhecimento

mais detalhado, e inovação, por meio da descoberta de substâncias com potencial aplicação

nas indústrias química e farmacêutica (OLIVEIRA, 2013), objetivando a descoberta de novos

fármacos anticâncer de ocorrência natural em função da existência de um grande número de

espécies disponíveis para investigação (LOTUFO et al., 2010).

Com relação à linhagem de plantas, o Brasil se sobressai ao abrigar aproximadamente

20% das angiospermas, 20% das briófitas e 10% das pteridófitas conhecidas mundialmente,

compreendendo cerca de 43.020 espécies catalogadas. Essa diversidade de organismos denota

uma enorme diversidade biológica, adaptados às regiões fitoecológicas nas quais evoluíram

ao longo de milhões de anos (MMA, 2015).

Os estudos de plantas medicinais ainda não receberam grande destaque das agências

financiadoras no Brasil, embora haja uma massa crítica de pesquisadores qualificados nas

áreas de química e farmacologia (LEITE; OLIVEIRA FILHO, 2014). Apesar disso, grande

parte dos medicamentos encontrados no mercado é derivado direta ou indiretamente de

10

Antineoplásica é um tratamento que utiliza fármacos no organismo dos pacientes com o objetivo de combater

as células cancerosas, Agem como substâncias que são responsáveis por controlar a doença, podendo ser

utilizadas através de diversas vias (QUIMIOTERAPIA... 2015).

25

vegetais, micro-organismos, organismos marinhos, vertebrados e invertebrados terrestres

(BRANDÃO et al., 2012).

Metodologias recentes de isolamento e identificação de compostos de fontes naturais

têm propiciado aumento no número de novas estruturas químicas bioativas para inúmeras

indicações terapêuticas (BRANDÃO et al., 2012).

Sendo assim, com o início do século 21, a descoberta e desenvolvimento de novas

moléculas para tratamento médico, vem avançando graças a grande necessidade de novos

produtos naturais (MACHADO et al., 2015). Na área do câncer, os compostos desenvolvidos

têm tido fundamental importância, já que os produtos naturais respondem por

aproximadamente 60% de todas as moléculas desenvolvidas, sejam elas produtos naturais, ou

derivados destes (KINGHORN et al., 2011).

A síntese de produtos naturais bioativos tem evoluído aos poucos no Brasil e poderá

exercer um papel significativo na geração de novos fármacos, biocombustíveis, entre outros

(FELÍCIO et al., 2012). É nesse cenário que as cianobactérias tem representado uma fonte

valiosa de descoberta de novos compostos, estando entre os microorganismos mais antigos do

planeta, tendo assim desenvolvido um rico arsenal de vias biossintéticas para síntese de

metabólitos secundários, apresentando mecanismos únicos ou extremamente raros na natureza

(BLUNT et al., 2014).

Segundo Micallef (2014), a mineração de genoma permite a identificação e

caracterização de agrupamentos de genes de produtos naturais. No entanto, o número atual de

genomas de cianobactérias permanece baixo em comparação com outros filos. Há um esforço

recente para corrigir esse problema, aumentando o número de genomas sequenciados de

cianobactérias, permitindo a identificação de agrupamentos de genes biossintéticos para

estrutura de diversos metabólitos.

Enquanto alguns dos agrupamentos de genes biossintéticos identificados

correlacionam com metabólitos conhecidos, a mineração de genoma também destaca o

número e a diversidade dos grupos para os quais o produto é desconhecido, que são

conhecidos como agrupamentos de genes órfãos (MICALLEF, 2014).

Cada vez mais microrganismos patogénicos resistentes aos medicamentos estão se

tornando uma ameaça significativa para a saúde pública e os gasodutos de descoberta

farmacêutica não geram a quantidade de novos medicamentos necessários para o tratamento

de doenças de forma eficiente (MACHADO et al., 2015). É nesse contexto que as

ferramentas de predição de produtos naturais surgem, com o objetivo principal de auxiliar a

26

busca por novos compostos biológicos que auxiliem o tratamento de doenças e criação de

novos medicamentos.

A maioria das ferramentas de predição de produtos naturais utiliza a busca por

domínios NRPS e PKS que são famílias de enzimas responsáveis pela síntese de metabólitos

secundários com notável atividade biológica, atuando através do processamento de

aminoácidos (pequenos blocos de construção) para a estruturação de metabólitos mais

complexos, além de constituírem as principais classes de compostos de interesse

biotecnológico com ênfase na indústria farmacêutica (COUTO, 2014).

27

3. TRABALHOS CORRELATOS

Em estudos preliminares, foram identificados e selecionados quatro trabalhos da

literatura para estudos, sendo eles: Explorando Genomas de Cianobactérias para a Biossíntese

de Produtos Naturais; A Mineração de Genoma demonstra a ampla ocorrência de Clusters

Gênicos na Codificação de Bacteriocinas em Cianobactérias; A Mineração de Genoma revela

o potencial bioativo de bactérias gram-negativas marinhas; A Mineração de Genoma de

Produtos Naturais para o Agrupamento de Genes Biossintéticos da Subseção V de

Cianobactérias, que apresentam propostas semelhantes aos objetivos desta monografia.

3.1. EXPLORANDO GENOMAS DE CIANOBACTÉRIAS PARA A BIOSSÍNTESE DE

PRODUTOS NATURAIS

As cianobactérias são bactérias fotossintéticas que habitam uma vasta gama

de ecossistemas e apresentam uma imensa história evolutiva, além de serem capazes de

produzir uma grande variedade de produtos naturais que possuem potencial para desempenhar

determinadas funções ecológicas ou biológicas. Metabólitos secundários em cianobactérias

têm um impacto significativo no que se refere á saúde humana, tanto diretamente, como é o

caso da contaminação de reservatórios de água potável por um grupo de cepas tóxicas, quanto

indiretamente, através de seu potencial farmacêutico (MICALEFF et al., 2014).

Nesse contexto, surgiu a necessidade de realizar o sequenciamento de genomas de

cianobactérias, visando posteriormente encontrar possíveis produtos naturais que possam ter

alguma funcionalidade utilizada na indústrica, ou na criação de novos farmácos. Recentes

esforços de sequenciamento de genomas destacaram a importância de análises para a detecção

de agrupamentos de genes biossintéticos em produtos naturais.

Para auxiliar esse processo de detecção, recentemente, certo número de ferramentas

de bioinformática tem sido desenvolvido, a fim de prever a estrutura dos metabólitos

secundários produzidos principalmente no que se refere ao agrupamento de genes órfãos para

o qual o produto é desconhecido. O trabalho realizado por Melinda L. Micaleff e

pesquisadores, em 2014, teve como um de seus objetivos principais analisar a adequação

dessas ferramentas no que diz respeito a detecção de agrupamentos de genes biossintéticos em

cianobactérias. Por último, buscou explorar a possibilidade de caracterizar agrupamentos de

genes órfãos via expressão heteróloga.

28

Através de uma revisão apurada da literatura que reporta a presença ou ausência de

vias biossintéticas de produtos naturais em genomas de cianobactérias, estudos rigorosamente

centrados no rastreiamento com base no genoma constataram que as cianobactérias são

capazes de produzir uma gama de diferentes classes de produtos naturais, incluindo péptideos,

policetídeos, alcalóides, terpenos, ácidos graxos e compostos que absorvem radiação

ultravioleta, que compõem alguns dos objetos de busca desse trabalho.

Muitas das vias biossintéticas que codificam produtos naturais encontrados nesse

estudo foram originalmente identificados através da análise da sequência mais tradicional. A

análise da sequência do genoma subsequente demonstrou a distribuição dos caminhos entre as

espécies e gêneros e forneceu introspecções sobre sua evolução.

No que se refere a análises in silico, uma comparação dos resultados com base no

antiSMASH e no ClusterFinder revelou que o antiSMASH se destacou ao identificar

previamente clusters e domínios caracterizados, enquanto que o ClusterFinder identificou

consideravelmente mais agrupamentos não anotados e supostamente responsáveis pela

biossíntese de pequenas moléculas (CIMERMANCIC et al., 2014). Claramente, a melhor

abordagem para a mineração de genoma (que são interessadas em identificar uma ampla gama

de classes de fragmentação de produtos naturais) é a utilização de uma combinação de ambas

as ferramentas (MICALEFF et al., 2014).

Com exceção do antiSMASH e do ClusterFinder, a maioria das ferramentas de

mineração de genoma foram projetadas especificamente para identificar os domínios NRPS,

PKS ou híbridos NRPS/PKS de classes de agrupamentos de genes. Isto ocorre devido á alta

conservação e a natureza caracterizada de vias NRPS/PKS para agrupamentos no genoma.

Outros programas tais como o NP.searcher, CLUSEAN, ClustScan e ASMPKS são capazes

de pesquisar genomas inteiros (MICALLEF et al., 2014).

Esse estudo também apresentou testes com a ferramenta NaPDoS, que ao invés de

identificar agrupamentos de genes inteiros, tem como alvo especificamente

todos os domínios C e KS contidos em um genoma de consulta (ZIEMERT et al., 2012).

A ferramenta NaPDoS analisa as sequências identificadas por BLAST e filogenia

para avaliar se o domínio pode pertencer a um conjunto único e, portanto, ser

responsável por um produto natural exclusivo. Micaleff afirma que o usuário deve analisar

manualmente cada domínio identificado com o cluster gênico correspondente para determinar

o número de agrupamentos de genes presentes.

29

As ferramentas de bioinformática desenvolvidas para a análise de produtos naturais

em agrupamentos de genes são úteis para a análise de sequências do genoma. No entanto, em

geral, estas ferramentas foram concebidas com base na via arquitetural do actinomiceto e, em

muitos casos, grupos de genes de cianobactérias provam ser um desafio para estes programas,

exigindo análise adicional pelo pesquisador.

Enquanto genes biossintéticos são comuns em cianobactérias, estes conjuntos

codificam várias enzimas monofuncionais que são difíceis de identificar usando alguns

softwares atuais, como antiSMASH. O cluster scytonemin é incapaz de ser identificado por

antiSMASH e os agrupamentos da detecção de MAA utilizando programas de bioinformática

é dependente da arquitetura genética realizar o agrupamento em um organismo particular.

Enquanto algoritmos de previsão funcionam bem para domínios comuns e altamente

caracterizados, a identificação de mais agrupamentos de produtos naturais levou à descoberta

de muitas arquiteturas de domínios incomuns. Isto é particularmente verdadeiro em

cianobactérias, onde vários tipos de domínio, em especial os módulos de iniciação (Moore e

Hertweck, 2002), não podem ser reconhecidos usando a previsão atual por software.

Segundo Shih et al. (2013) e Wang et al.(2014), a natureza rara destes domínios

assegura que uma combinação de análise de bioinformática através de ferramentas manuais é

necessária para uma mineração de genoma eficaz. O aumento no número de agrupamentos de

cianobactérias identificadas e caracterizadas por produtos naturais de genes biossintéticos são

necessárias para melhorar a precisão das previsões de bioinformática no futuro.

Análises recentes de genomas de cianobactérias atualmente disponíveis previram o

potencial biossintético destes genomas para codificar agrupamentos de genes híbridos

NRPS/PKS. Enquanto métodos semelhantes são usados para identificar esses agrupamentos

de genes, existe uma grande discrepância entre o número e o tipo de agrupamentos de genes

de NRPS/PKS/híbridos entre as publicações (MICALEFF et al., 2014).

Por exemplo, Shih et al. (2013) previu Prochlorococcus marinus str. MIT 9313

codifica um agrupamento de genes de PKS, enquanto Wang et al. (2014) demonstrou que não

detectou um agrupamento de genes de PKS dentro do mesmo genoma.

Além disso, Jones et al. (2011) analisou os agrupamentos de genes órfãos em

domínios NRPS/PKS codificados dentro do genoma de M. producens 3L e identificou cinco

órfãos NRPS e agrupamentos de genes de PKS, para além do NRPS/PKS/híbrido de clusters

de genes de curacina A, barbamide e carmabin. No entanto, de Shih et al. (2013) previu 14

30

agrupamentos de genes que foram codificados dentro desse genoma de cianobactéria,

incluindo ambos os agrupamentos de genes conhecidos e órfãos.

Uma circustância que serve como base para afirmar a inconsistência desses dados é o

fato de diferentes pesquisadores realizarem mineração no mesmo genoma e encontrarem

resultados diferentes.

As diferenças do número de agrupamentos de genes biossintéticos hipotéticos

identificados entre estes estudos, destacam várias questões importantes acerca da mineração

do genoma de cianobactérias, incluindo metodologias inconsistentes e cut-offs11

usados para

distinguir um agrupamento de genes de biossíntese.

Segundo Micaleff et al. (2014), a dificuldade em validar experimentalmente

agrupamentos de genes de cianobactérias fez com que os pesquisadores confiassem

exclusivamente em previsões de bioinformática, limitando muitas vezes o conhecimento

acerca dos genes e domínios essenciais para a biossíntese de produtos naturais de

cianobactérias.

Para superar isto, o sequenciamento de genomas e o número de clusters identificados

deverão buscar o aumento da confiança em ferramentas de bioinformática. Além disso,

curadoria manual de todos os agrupamentos de genes identificados para os domínios

necessários devem sempre ser realizada para minimizar o número de falsos positivos

resultantes das identificações.

Esse trabalho também revelou que, embora haja um número de ferramentas de

bioinformática que podem ser empregadas especificamente para a análise de agrupamentos de

genes de produtos naturais, muitas delas são problemáticas quando utilizadas para a análise de

vias de cianobactérias. Isto deve ser levado em consideração na análise de agrupamentos de

genes de produtos naturais de cianobactérias, como a análise manual, como meio para realizar

a verificação e confirmação dos dados gerados por ferramentas.

Por fim, os avanços na expressão heteróloga de agrupamentos de genes de

cianobactérias irá fornecer evidências experimentais para desvio de cluster gênico genuíno

pode ser utilizado depois para reforçar previsões de bioinformática.

O trabalho de Micaleff apresenta técnicas e conclusões similares às desenvolvidas

nesse trabalho, como o fato de ter o objetivo central de explorar a adequação de algumas das

ferramentas mais comumente utilizadas para a predição de clusters gênicos em cianobactérias,

como o uso do antiSMASH; ClusterFinder; NP.searcher e NapDos, identificando o

11

Cut-off é um parametro utilizado em diversas buscas em ferramentas de bioinformática, significando o valor

de corte.

31

antiSMASH como uma das ferramentas mais completas na identificação de metabólitos

sedundários e o NapDos como uma ferramenta eficiente no que diz respeito a busca por

domínios C e KS.

3.2. A MINERAÇÃO DE GENOMA DEMONSTRA A AMPLA OCORRÊNCIA DE

CLUSTERS GÊNICOS NA CODIFICAÇÃO DE BACTERIOCINAS EM

CIANOBACTÉRIAS

As cianobactérias são uma fonte prolífica de peptídeos biologicamente ativos com

aplicações variadas. No trabalho realizado por Wang, Fewer e Sivonen, em 2011, foi

demonstrada a ocorrência generalizada de agrupamentos de genes de bacteriocinas em

cianobactérias. Estes agrupamentos de genes podem ser classificados em sete grupos de

acordo com a organização diversificada de domínios catalíticos dentro dos clusters. A

filogenética analisa apoiar a classificação do agrupamento de genes, e se mostrar

relativamente independente de histórias evolutivas. Apenas um pequeno número destes

agrupamentos irá codificar a maquinária enzimática necessária para formar lantioninas e

centenas de novos precursores de peptídeos com uma grande diversidade de núcleo.

Estruturas foram identificadas dentro destas regiões dos agrupamentos gênicos

pesquisados. Embora os produtos da maioria das proteínas precursoras sejam completamente

desconhecidos e ainda estejam aguardando verificação, não há nenhuma dúvida de que

cianobactérias estão emergindo como uma fonte prolífica de peptídeos pós-traducionalmente

modificados. A informação organizada apresentada nesse trabalho foi útil na obtenção de

mais informações acerca dos mecanismos da biossíntese de bacteriocinas. Além disso, este

estudo de bioinformática não só pretendeu melhorar a anotação do cluster gênico da

bacteriocina em cianobactérias, mas também complementou outras ferramentas ao descobrir

novas bacteriocinas.

Muitos peptídeos são os produtos finais de uma via não-ribossomal. No entanto,

recentemente várias classes de peptídeos de cianobactérias foram mostradas como produtos da

clivagem proteolítica e da modificação pós-traducional dos precursores de peptídeos

pequenos. Na pesquisa de Wang, Fewer, Sivonen (2011), uma nova classe de bacteriocinas

precursoras de proteínas foi identificada a partir de cianobactérias marinhas.

A fim de explorar o potencial genético para produção de bacteriocina de

cianobactérias, foram separados dados de 58 genomas de cianobactérias, sendo utilizados para

identificar a organização dos agrupamentos de genes de processamento de bacteriocina.

32

Surpreendentemente, eles descobriram por volta de 100 novos supostos agrupamentos

genéticos de genomas de bacteriocinas de quase todas as espécies de cianobactérias

examinadas.

Cerca de 300 precursores de genes hipotéticos foram codificados em estreita

proximidade com os agrupamentos de genes de bacteriocinas. Os resultados pesquisados por

eles demonstraram também a presença generalizada de agrupamentos de genes de

bacteriocinas em cianobactérias. A diversidade genética dos peptídeos centrais destes

precursores de bacteriocina é enorme, com poucas sequências em conservação.

Wang, Fewer, Sivonen (2011) utilizaram inúmeros procedimentos, metódos e

ferramentas para a elaboração dessa pesquisa, o primeiro deles foi a busca pelas linhagens de

cianobactérias. Dados genômicos de 58 linhagens de cianobactérias foram baixados a partir

do banco de dados GenBank (ftp://ftp.ncbi.nih.gov/GenBank/). As sequências de proteínas

destes genomas foram extraídas e formatadas para pesquisas BLAST locais.

A partir de três consultas adaptadas contendo arquivos com o formato FASTA,

sequências proteicas de genes de bacteriocinas sintetizadas foram construídos.

Sequências nestes dois arquivos foram coletadas a partir da base de dados de

domínios conservados do NCBI. Destas, 14 sequências no terceiro arquivo eram proteínas

LanM localizadas em cianobactérias.

Para a identificação da classificação de clusters gênicos, três arquivos de consulta

foram utilizados para pesquisa no banco de dados que contém todas as proteínas de

cianobactérias recolhidas de genomas. Acessos de proteína de BLASTp foram escolhidas

como candidatas e rotuladas nas sequências do genoma no formato GenBank, que foram

usadas para visualizar as organizações de genes que rodeiam proteínas candidatas usando o

software Artemis (http://www.sanger.ac.uk/science/tools/artemis) para identificação do grupo

de genes e comparação estrutural intensiva. Os componentes de domínios de proteínas

candidatas foram identificados por pesquisa por domínios conservados. Em seguida, os

agrupamentos de genes hipotéticos foram divididos em sete grupos, combinando as

informações da organização de genes e a composição do domínio.

Conforme apresentado na figura 4 os conjuntos dos genes identificados nesse estudo

foram classificados em sete grupos (de I a VII) com base na organização e composição do

gene de domínio. Tamanhos e direções de ORFs são mostrados numa escala relativa com a

cor e definição do precursor em vermelho, o ABC transportador em azul, o HlyD em laranja,

SurA em verde, LanM na cor rosa, além de conter proteína S8 peptidase em amarelo, outras

33

enzimas de modificação em roxo, ORFs adjacentes em preto e genes tRNA em verde claro.

Domínios envolvidos na produção e modificação de bacteriocina em cianobactérias são

demonstrados dentro de ORFs com cores diferentes, nomes de domínios são derivados a partir

do banco de dados de domínio conservado.

Figura 4: Organização dos agrupamentos de genes de cianobactérias. Fonte: Wang et al., 2011.

Para a identificação de genes precursores foram pesquisadas faixas de 20 Kb para os

sentidos 5' e 3' de cada agrupamento gênico. Pequenas ORFs e regiões intergênicas foram

verificadas manualmente, procurando o dobro de glicinas, oriundas de sequências GG

(guanina-guanina) presentes no peptídeo. Estes precursores previstos foram comparados com

famílias precursoras, através do BLASTp para a realização da classificação. Vários

alinhamentos de sequências foram realizadas com ClustalW. Logo, a frequência relativa de

aminoácidos em peptídeos líder região clivagem foram tiradas em linha WebLogo.

Características precursoras foram calculadas utilizando Pepstats12

.

Como resultados, foram mostradas a ocorrência generalizada de agrupamentos de

genes de bacteriocinas em cianobactérias, através da análise comparativa de 58 genomas de

cianobactérias. Um total de 145 agrupamentos de genes de bacteriocinas foi descoberto

através da mineração do genoma. Estes agrupamentos codificaram 290 precursores de

bacteriocina hipotéticos. Eles variaram em um comprimento de 28-164 aminoácidos com

12

Pepstats é uma metodologia utilizada para calcular estatísticas para as proteínas, tais como peso molecular,

ponto isoelétrico, etc (EMBL, 2015).

34

pouca conservação da sequência do peptídeo de núcleo, que é a parte responsável por exercer

a atividade biológica. Os agrupamentos de genes podem ser classificados em sete grupos de

acordo com a sua organização e a composição de gene de domínio. Nossos dados sugerem

que as cianobactérias são uma fonte prolífica de baixo peso molecular peptídeos modificados

após a tradução.

O trabalho de Wang, Fewer, Sivonen (2011), demonstrou algumas atividades

correlatas ás desenvolvidas nesse trabalho, especialmente as que antecederam a predição dos

clusters gênicos pelas ferramentas de predição de produtos naturais. Um exemplo é a

utilização da ferramenta BLAST para a extração de proteínas concernentes aos genomas para

pesquisas locais, assim como o uso do BLASTP, como uma das ferramentas de pesquisa. A

utilização do Artemis para visualizar grupos de genes, além da comparação estrutural dos

produtos também se apresentou como uma similaridade entre o trabalho desenvolvido por

Wang e o e presente trabalho.

3.3. A MINERAÇÃO DE GENOMA REVELA POTENCIAL BIOATIVO DE

BACTÉRIAS GRAM-NEGATIVAS MARINHAS

A resistência das bactérias aos antibióticos se espalha rapidamente, chegando a

ultrapassar o ritmo em que novos produtos são descobertos, enfatizando a necessidade

imediata de descobrir novos compostos para o controle de doenças infecciosas. Bactérias

terrestres têm sido investigadas por décadas como uma rica fonte de compostos bioativos que

conduzem a aplicações bem sucedidas nas indústrias farmacêuticas e de biotecnologia.

Até agora, bactérias marinhas não foram exploradas com a mesma intensidade. No

entanto, o trabalho de Machado et al. (2015), afirma que tais bactérias abrigam diversos novos

químicos bioativos. Para explorar este potencial, esse trabalho primeiramente apresentou os

genomas de 21 alfa e gamma proteobactérias que foram coletados durante a expedição

Galathea 3. Logo após, esses genomas foram sequenciados e analisados para a descoberta de

agrupamentos de genes que codificam produtos naturais.

Durante os últimos cinco anos, o trabalho de Machado et al. (2015) demonstrou que as

bactérias gram-negativas marinhas produzem uma série de compostos antibióticos e anti-

virulência. A partir desse trabalho fica a indagação se a abordagem clássica da bioprospecção

havia revelado plenamente o potencial destas bactérias.

35

Ao longo desse estudo, vários comentários forneceram uma comparação entre

diferentes ferramentas de bioinformática que realizam a predição de genes biossintéticos,

através da análise do seu modus operandi13

.

Nesse cenário, Machado et al. (2015), realizou um estudo in silico de diferentes

genomas marinhos bacterianos através de análises utilizando várias ferramentas de predição

desenvolvidas na identificação de produtos naturais. Logo, os genomas foram analisados

utilizando ferramentas de bioinformática para a identificação dos clusters envolvidos no

metabolismo secundário, tais ferramentas foram: antiSMASH, NapDos, NP.searcher e

BAGEL3. Através desses estudos, foi encontrado um alto potencial genético para produção de

metabólitos secundários também em bactérias marinhas gram-negativas.

A ferramenta antiSMASH foi utilizada para identificar vias de metabólitos

secundários, a ferramenta BAGEL3 foi usada para a identificação de bacteriocinas. Já a

ferramenta NapDos foi manuaseada para a apontar domínios de cetosintase14

(domínios KS) e

domínios de condensação15

(domínios C). Por fim, a ferramenta NP.searcher foi utilizada com

objetivo de identificar de agrupamentos de genes inteiros.

As análises utilizando NapDos e NP.Searcher, em geral, identificaram o mesmo

número de agrupamentos de potenciais genes bioativos.

Os resultados da mineração utilizando a ferramenta NapDoS demonstram que

Marinomonas sp. S3726 tem um grande potencial, com 6 domínios KS e 17 domínios C

identificados. Sendo assim, o único número obtido por uma dada ferramenta de análise pode

não refletir todo o potencial do organismo e análises complementares devem ser realizadas

para assegurar a descoberta completa do potencial bioativo.

Tal análise deve ser feita para que também possa evitar a continuação dos trabalhos

em agrupamentos que podem se tratar de falsos clusters de metabólitos secundários. Os

resultados da análise por NapDos e pela ferramenta NP.searcher pareciam identificar apenas

um subconjunto dos clusters NRPS/PKS que também foram identificados pela ferramenta

antiSMASH.

O número de clusters de bacteriocinas identificados por antiSMASH variou entre 1 e 5

em cada linhagem. No entanto, quando os genomas foram analisados utilizando a ferramenta

13

Modus operandi é o modo de operação de determinada ferramenta. 14

Domínios de cetosintase (domínio KS) são aqueles que catalisam a reação de elongação. 15

Domínios de condensação (domínio C) são aqueles que catalisam informações peptídicas.

36

de previsão BAGEL3, a presença de genes relacionados com a bacteriocina foi confirmada

apenas em algumas cepas.

Uma segunda análise das cepas de P. ruthenica utilizando a ferramenta antiSMASH

com base em probabilidades de domínio Pfam, aumentou o número de agrupamentos de genes

potenciais de 3 para 30.

A distribuição dos clusters de bacteriocina não seguiu um padrão particular no que diz

respeito aos gêneros ou espécies. Parece evidente que as ferramentas de previsão específicas

são mais precisas na identificação de seu alvo definido. Portanto, sendo BAGEL3

provavelmente um melhor indicador do número de genes relacionados com a bacteriocina do

que a própria antiSMASH.

Os principais métodos e ferramentas utilizadas nesse estudo, envolvem projetos de

genomas que foram anotados utilizando RAST e submetidos a análise de metabólitos

secundários com o agrupamento de genes usando antiSMASH 2.0, NapDos, NP.searcher,

bem como o software específico de bacteriocina BAGEL3.

Na mineração de genomas, a identificação de clusters provavelmente envolvidos no

metabolismo secundário, tal como NRPS e PKS têm sido usados como uma medida do

potencial para encontrar novos compostos bioativos naturais, incluindo antibióticos. No

entanto, todas as ferramentas de bioinformática utilizadas para pesquisar as capacidades

biossintéticas e potencial de P. ruthenica falharam (MACHADO et al., 2015).

Independentemente do tamanho do genoma de todos os gêneros de bactérias testadas,

um grande número de grupos que codificam diferentes potenciais bioativos foi encontrado.

Além disso, os elementos reguladores em vias relacionadas com bioatividade foram

investigados tanto in silico como in vitro.

Esse trabalho possibilitou uma compreensão maior acerca da manipulação destas

ferramentas que podem ajudar na descoberta e produção de novos compostos não

identificados em condições normais de cultivo em laboratório. O uso de ferramentas

complementares para a mineração do genoma é de grande valor no estreitamento dos

agrupamentos de genes potenciais de uma grande piscina obtido por software de previsão

larga tais como antiSMASH.

O trabalho desenvolvido por Machado et al. (2015), demonstrou técnicas para a

predição de produtos naturais sendo algumas também desenvolvidas nesse trabalho, como o

uso das ferramentas in silico para auxiliar o processo de mineração de genomas, também

utilizando a ferramenta antiSMASH para identificação de vias metabólicas e a ferramenta

37

NapDos para encontrar domínios C e KS. Vale ressaltar também, o fato de ambos os trabalhos

utilizarem o antiSMASH alinhado a busca Pfam e o NP.searcher para a detecção de

agrupamentos de genes inteiros. Contudo, o presente trabalho não realizou a identificação de

bacteriocinas com a ferramenta BAGEL3, e sim com a ferramenta antiSMASH.

3.4. A MINERAÇÃO DE GENOMA DE PRODUTOS NATURAIS PARA

AGRUPAMENTOS DE GENES BIOSSINTÉTICOS NA SUBSEÇÃO V DE

CIANOBACTÉRIAS

Projetos recentes de sequenciamento de genomas levaram a um aumento no número de

cianobactérias com genomas publicamente disponíveis. Contudo, o potencial de metabólitos

secundários de muitos destes organismos ainda permanece indefinido (MICALEFF et al.,

2015).

Nesse contexto, o estudo realizado por Micallef et al. (2015) se concentrou em 11

genomas que estão disponíveis publicamente na Subseção V de cianobactérias, juntamente

com os projetos de genomas de Westiella intricata UH linhagem HT-29-1 e Hapalosiphon

welwitschii UH IC-52-3, devido seu potencial genético para produzir metabólitos secundários.

Os genomas das cianobactérias da Subseção V analisados neste estudo foram relatados para

produzir uma gama diversificada de produtos naturais.

A descoberta por novas fontes de produtos naturais se deu em virtude dos recentes

esforços para aumentar o sequenciamento de genomas. Antes de 2013, a Subseção V foi

significativamente representada em comparação com as outras subseções de cianobactérias

em quantidade de genomas sequenciados. Dois projetos recentes de sequenciamento de

cianobactérias destinadas a aumentar o número de genomas da Subseção V ocasionaram em

um aumento significativo no número de genomas (MICALEFF et al., 2015).

Atualmente, existem 11 genomas publicamente disponíveis na Subseção V de

cianobactérias, mais especificamente: Fischerella sp. PCC 9339, Fischerella sp. PCC 9431,

Fischerella sp. JSC-11, Fischerella sp. PCC 9605, Fischerella muscicola PCC 7414,

Fischerella muscicola SAG 1427-1, Fischerella thermalis PCC 7521, Mastigocladopsis

repens PCC 10914, Chlorogloeopsis fritschii PCC 6912, Chlorogloeopsis sp. PCC 9212 e

Mastigocoleus testarum BC008.

Uma análise mais profunda em domínios NRPS/PKS de clusters gênicos revela que a

porcentagem do genoma dedicado a esses agrupamentos de genes é maior na Subseção V do

que em outras subseções de cianobactérias (CALTEAU et al., 2014).

38

O trabalho apresentado por Micaleff et al. (2015), expõe os agrupamentos de genes

conhecidos e genes órfãos pertencentes aos domínios NRPS/PKS, PRPS, absorção de UV,

além de classes de hidrocarbonetos e terpenos de produtos naturais. Esse trabalho é o primeiro

estudo que incluiu a identificação e análise de agrupamentos de genes de todas as classes

estruturais de produtos naturais nos genomas de cianobactérias da Subseção V.

Como início do desenvolvimento desse estudo, todas as sequências nucleotídicas

foram obtidas a partir do sequenciamento do genoma pela plataforma Ilumina, já a anotação

de ORFs, o sequenciamento de resultados utilizando produtos PCR e sequências nucleotídicas

dos genomas W. intricata UH linhagem HT-29-1 e H. welwitschii UH IC-52-3 foram

organizadas e visualizadas utilizando a ferramenta Geneious (versão 6.1.7) criada pela

Biomatters (disponível a partir de http://www.geneious.com/).

Os 11 genomas de cianobactérias da Subseção V estão disponíveis publicamente a

partir de repositórios do NCBI ou do servidor DOE Joint Genome Institute (JGI). Os

alinhamentos das sequências de nucleotídeos de genes individuais e de clusters gênicos foram

realizados utilizando Geneious com configurações predefinidas. Para alinhamentos de

proteína, foi utilizada a ferramenta Clustal Omega (versão 1.2.1) com as configurações

padrões.

Agrupamentos de genes hipotéticos de metabólicos secundários foram identificados

utilizando a ferramenta antiSMASH versão 2.0 com os parâmetros padrões. As anotações

foram refinadas manualmente usando CDsearch e para a identificação de domínios

conservados foi utilizada a ferramenta BLASTp (Basic Local Alignment Search Tool).

A princípio, cada grupo de genes biossintéticos foi classificado conforme o tipo de

produto natural codificado dentro do grupo de genes. A genômica comparativa identificou

agrupamentos homólogos em genomas de cianobactérias da Subseção V e a organização de

tais genes foi comparada. Agrupamentos de genes homólogos em múltiplos genomas também

foram identificados utilizando a ferramenta COG em IMG JGI.

A organização de grupos de genes de domínio NRPS e PKS identificados por

antiSMASH foi analisada usando a base de dados NRPS/PKS, já as enzimas NRPS foram

previstas utilizando a ferramenta NRPSpredictor2. Além disso, o NaPDoS foi usado para

identificar domínios KS e C. A análise bioinformática de agrupamentos de genes NPRS,

cianobactinas, microviridinas e agrupamentos de genes biossintéticos de bacteriocinas foram

inicialmente identificados usando antiSMASH. Em seguida, a ferramenta BLASTp foi usada

para determinar o potencial falso e positivo (cianobactina e microviridina) ou agrupamentos

39

adicionais de genes (bacteriocina). Alinhamentos de proteína precursores de peptídeos foram

realizados utilizando Clustal Omega.

O domínio sulfotransferase, característica da via de sintase de olefina (OLS), foi

utilizado na análise BLASTp. Agrupamentos de genes biossintéticos de terpenos foram

identificados e agrupados de acordo com a presença de genes comuns utilizando a ferramenta

antiSMASH, além de serem comparados para identificar terpeno e agrupamentos de genes

biossintéticos de esqualeno.

Tal estudo revelou que existe a possibilidade de identificar novos produtos de

agrupamentos de genes de biossíntese previamente identificados, tais como os agrupamentos

de genes hap ou PCM. Portanto, a caracterização de esses agrupamentos de genes

biossintéticos tem o potencial de conduzir para a identificação de análogos de produtos

naturais com bioatividades reforçadas (MICALEFF et al., 2015).

Os agrupamentos de genes foram organizados em seis grupos, como pode ser

observado na figura 5, com base na presença de clusters gênicos.

40

Figura 5: Exemplos de grupos de genes de bacteriocina da Subseção V de cianobactérias. Fonte: Micaleff

et al., 2015.

A figura acima descreve seis grupos diferentes, que foram classificados de acordo com

Wang et al. (2011) e identificados a partir de cianobactérias da Subseção V. Os genes que

compõem o grupo I foram identificados a partir da W.intricata UH linhagem HT-29-1. Já no

grupo II o agrupamento mostrado foi referente a M.repens PCC 10914. Os agrupamentos de

genes dos grupos III e IV foram identificados a partir da H.welwitschii UH linhagem IC-52-3.

O agrupamento de gene da subseção V, foi identificado a partir do genoma da

Fischerella sp. PCC 9431. Por fim, o cluster gênico do grupo VI foi identificado a partir

Fischerella sp. PCC 9605. Os genes hipotéticos precursores são representados por uma seta

vermelha, os genes que representam o HlyD possuem a seta laranja como idenficador, genes

SurA são representados pela seta verde, genes ABC transportadores estão representados por

uma seta verde, outras enzimas de modificação são representados pela seta roxa, genes

peptidase S8 são representados pela seta amarela e genes LanM são representados pela seta

41

rosa. Domínios envolvidos na produção de bacteriocina de cianobactérias e modificação são

destacados no âmbito de cada gene.

Quase todos os grupos de genes de bacteriocina identificados a partir da Subseção V

também codificavam um grande número de sequências curtas de peptídeos, seja dentro ou

localizados nas extremidades dos agrupamentos de genes de bacteriocina, em adição aos tipos

conhecidos de precursores. Estas sequências peptídicas curtas podem codificar peptídeos de

precursores para a biossíntese de bacteriocinas.

Caracterizações futuras relacionadas á funcionalidade destes peptídeos precursores

irão determinar se estas sequências são parte dos agrupamentos de genes identificados a partir

de bacteriocinas da Subseção V de cianobactérias (MICALEFF et al., 2015).

A mineração do genoma revelou a diversidade, abundância, natureza complexa e

potencial dos metabólitos secundários da Subseção V. Este estudo de bioinformática

identificou agrupamentos de enzimas biossintéticas que não foram associados com conjuntos

de genes de classes conhecidas de produtos naturais, sugerindo que essas cianobactérias

potencialmente possam produzir metabólitos secundários estruturalmente novos.

O trabalho proposto por Micaleff et al. (2015), apresentou a utilização de ferramentas

com os mesmos objetivos das utilizadas nesse trabalho, como o antiSMASH para a encontrar

genes hipotéticos e outros tipos, além do uso de BLASTp para identificar domínios

conservados e a ferramenta NapDos para a identificação de domínios C e KS. Contudo, como

diferença pode ser apresentado o uso de ferramentas diferentes para a visualização das

sequências, no trabalho de Micaleff a ferramenta utilizada foi o Geneious e o presente

trabalho realizou a visualização da sequência através da ferramenta Artemis.

42

4. MATERIAIS E MÉTODOS

Neste capítulo, apresenta-se a metodologia aplicada no planejamento e execução do

presente trabalho. Antes de começar a avaliação dos softwares de predição, foram definidos os

resultados esperados juntamente com a equipe de pesquisadores do Laboratório de Tecnologia

Biomolecular LTB da Universidade Federal do Pará, campus Belém. Participaram destas

reuniões iniciais na primeira semana de julho de 2015: a autora deste trabalho, a professora

Dr.ª Daniele Costa Carrara Couto, o professor Ms. Alex Ranieri Jerônimo Lima e o

pesquisador Dr. Evonnildo Costa Gonçalves.

Após a definição dos objetivos iniciou-se a busca por literaturas que auxiliassem no

processo de predição de clusters gênicos. Então, utilizando essas literaturas, foram escolhidas

as ferramentas e os requisitos que seriam necessários para configurar os softwares que seriam

utilizados durante o processo, assim como os genomas que seriam utilizados como insumos

para as mesmas.

Nesse cenário, foi proposto um pipeline para a modelagem do processo. De acordo

com a análise feita na etapa anterior foi construído um modelo conceitual no qual foram

escolhidas as ferramentas e sua organização para extrair as informações necessárias ao

processo de predição de clusters gênicos.

De modo geral, o presente trabalho descreve a utilização de ferramentas de bioinformática

possuindo como entrada alguns genomas de cianobactérias, objetivando demonstrar os resultados

encontrados pelas ferramentas, assim como a comparação dos resultados pelas ferramentas de

mesma categoria.

4.1. FERRAMENTAS DE PREDIÇÃO DE PRODUTOS NATURAIS

O conjunto de dados de genomas microbianos e dados metagenômicos que foram

tornados públicos vem aumentando exponencialmente. Portanto, a mineração de genomas

tornou-se uma ferramenta extremamente atraente para a descoberta de novos medicamentos.

Tal fator ocasionou o desenvolvimento de novos instrumentos de bioinformática, que em

geral, são utilizados para rastrear e identificar bioatividades, incluindo agrupamentos gênicos

responsáveis pela produção das novas moléculas (MACHADO et al., 2015).

Novas ferramentas de bioinformática são necessárias para analisar o crescente volume

de dados de sequências de DNA. Isto é especialmente verdade no caso da biossíntese de

metabólitos secundários, quando a natureza altamente repetitiva dos genes associados cria

desafios para a montagem precisa e análise de sequência (ZIEMERT et al., 2012). No entanto,

43

em alguns casos, a complexidade das vias de cianobactérias torna problemática a predição

(MICALLEF et al., 2014).

Geralmente, as ferramentas de bioinformática utilizadas dependem diretamente do

objetivo e especificidade da pesquisa, isto é, se o investigador está tentando identificar todos

os agrupamentos de genes possíveis dentro de um organismo, um agrupamento específico de

genes de interesse, ou um substrato hipotético incorporado por um domínio específico. Uma

vez que a pesquisa no programa foi concluída, é essencial para o usuário verifique

manualmente a saída para determinar se os agrupamentos de genes identificados são genuínos

e se podem fazer parte do grupo de genes de biossíntese (MICALLEF et al., 2014).

Sendo assim, cada ferramenta in silico possui características e objetivos específicos, é

incumbência do usuário escolher o tipo ou combinação de ferramentas com base em seus

requisitos específicos para obtenção de ótimos resultados. Algumas ferramentas de predição

de produtos naturais são descritas a seguir.

4.1.1. antiSMASH

A Mineração de Genoma e dos seus agrupamentos de genes biossintéticos tornou-se

um método essencial para acelerar a sua identificação e caracterização. Metabólitos

secundários microbianos são uma fonte potente de antibióticos e outros produtos

farmacêuticos (COUTO, 2014).

Atualmente, uma das ferramentas mais comumente utilizada para analisar o potencial

de metabólitos secundários de sequenciamento de genomas é a ferramenta antiSMASH

(Antibiotics and Secondary Metabolite Analysis Shell) (BLIN et al., 2013).

É com o objetivo de automatizar esse processo que foi desenvolvido o antiSMASH,

uma plataforma de análise baseada na web. A liberação da versão antiSMASH 2.0, disponível

em (http://antismash.secondarymetabolites.org/), foi praticamente refeita usando um conceito

plug-and-play, proporcionando facilidade na integração de novos módulos de previsão ou de

saída. Atualmente, o antiSMASH já está na versão 3.0.4 que ainda está sendo consolidada e

sua interface pode ser observada através da figura 6.

O antiSMASH possui uma interface web com usuário e pode identificar até 24 grupos

classes. É extremamente amistosa, visto que uma consulta pode ser apresentada, logo que um

genoma sequenciado recentemente tenha sido montado (MICALLEF et al., 2014).

44

O algoritmo para a previsão da estrutura do núcleo do produto final aglomerado é

agora também abrange lantipeptideos, além de policetideos e os péptideos não ribossômicos.

A funcionalidade antiSMASH ClusterBlast foi ampliada para identificar sub-grupos

envolvidos na biossíntese de blocos de construção químicos específicos (COUTO, 2014).

Atualmente, os novos recursos fazem do antiSMASH 2.0 a ferramenta mais abrangente para

identificar e analisar novas vias biossintéticas metabólicas secundárias em microorganismos

(BLIN et al., 2013).

Figura 6: Página inicial da plataforma antiSMASH. Fonte: antiSMASH, 2015.

4.1.2. NP.searcher

A ferramenta NP.searcher (Figura 7) foi desenvolvida com o objetivo de digitalizar

genomas microbianos rapidamente para agrupamentos de genes biossintéticos de metabólitos

secundários, gerando como resultado uma saída candidata de NRPS/PKS de produtos naturais

em formato SMILES, permitindo assim a decodificação imediata do DNA para produzir

estruturas 2D e 3D em software amplamente disponível (COUTO, 2014). Com o

desenvolvimento das tecnologias de sequenciamento de genomas mais rápidos e mais baratos,

45

NP.searcher pode ser cada vez mais útil para a avaliação rápida de drogas candidatas a

produtos naturais adequados diretamente da informação genômica (LI et al., 2009).

Figura 7: Página inicial do sistema NP.searcher. Fonte: NP.searcher, 2015.

4.1.3. NaPDoS

O NaPDoS (Natural Product Domain Seeker) é uma ferramenta web que fornece um

método automatizado para avaliar a diversidade de genes biossintéticos de metabólitos

secundários. Suas análises são baseadas nas relações filogenéticas de sequências derivadas de

genes PKS (Polyketide Synthase) e NRPS (Non-ribosomal Peptide Synthetase),

respectivamente. Os marcadores de sequências correspondem a domínios cetosintases

derivados de PKS e domínios de condensação-NRPS que são comparados com uma base de

dados interna de genes biossintéticos experimentalmente caracterizadas (ZIEMERT et al.,

2012).

O banco de dados do NaPDoS, fornece um mecanismo para inferir as estruturas

generalizadas de metabólitos secundários, enquanto novas linhagens filogenéticas fornecem

metas para a descoberta de novas arquiteturas ou mecanismos de montagem de metabólitos

secundários de enzimas (COUTO, 2014).

46

Em suma, o NaPDoS, analisa as sequências identificadas por BLAST e filogenia para

avaliar se o domínio pode pertencer a um conjunto único e, portanto, podendo ser responsável

por um produto natural único (MICALLEF et al., 2014). A interface do NaPDoS é

apresentada através da figura 8.

Figura 8: Página inicial da ferramenta NaPDoS. Fonte: NaPDoS, 2015.

4.1.4. DoBISCUIT

Metabólitos secundários produzidos por bactérias muitas vezes mostram atividades

farmacologicamente importantes e podem servir como compostos de chumbo ou candidatos

para o desenvolvimento de drogas. A biossíntese de cada metabólito secundário é catalisada

por uma série de enzimas, geralmente codificadas por um cluster gênico. Apesar de muitos

47

trabalhos científicos descreverem tais agrupamentos de genes, as informações genéticas nem

sempre são descritas de forma global e as referências relacionadas raramente são integradas.

O DoBISCUIT (Figura 9) foi criado para tentar solucionar tais dificuldades, tendo

como principais funções a integração das informações mais recentes da literatura, além de

fornecer descrições de genes, módulos e domínios padronizados relacionados com os

agrupamentos genéticos (ICHIKAWA et al., 2013).

Figura 9: Página inicial do banco de dados DoBISCUIT. Fonte: DoBISCUIT, 2015.

A versão atual do DoBISCUIT possui como foco a concentração em metabólitos

secundários derivados de bactérias. Os dados fundamentais do DoBISCUIT são baseados em

entradas INSDC descrevendo cada cluster biossintético de um metabólito secundário

bacteriano conhecido. A coleta de dados começou a partir de uma ampla revisão da literatura,

que relata as descobertas de aglomerados de biossíntese. Os artigos foram coletados do

PubMed usando o termo de pesquisa ―biosynthesis cluster‖. Os números de acesso

correspondentes INSDC foram extraídos dos termos ou através da pesquisa GenBank

utilizando o nome de cada composto (COUTO, 2014).

48

Logo, muitos dos projetos de genomas atuais pretendem descobrir ou investigar

metabólitos secundários produzidos por bactérias e o DoBISCUIT é eficaz na identificação in

silico de clusters biossintéticos de sequências de genomas. As ferramentas web que

identificam domínios em proteínas NRPS/PKS propõem agrupamentos biossintéticos

semelhantes aos do DoBISCUIT. Entretanto, na próxima fase da mineração de genomas, os

usuários descobrem muitas vezes que a informação não pode ser obtida de forma eficiente a

partir de entradas INSDC sugeridas (ICHIKAWA et al., 2013).

Sendo assim, o DoBISCUIT se difere das outras ferramentas devido o fato de

fornecer anotação funcional de cada gene e uma coleção abrangente de referências. Usando

um módulo de pesquisa, os usuários podem obter uma lista de CDSs16

contendo a mesma

composição de domínio como a sua própria, além de integrar as informações mais recentes da

literatura e fornecer descrições gene/módulo/domínio padronizados relacionados com os

agrupamentos de genes (COUTO, 2014).

4.1.5. ClusterFinder

O ClusterFinder é uma ferramenta que foi recentemente desenvolvida. Devido esse

fator, o interesse da comunidade mais ampla de mineração do genoma para utilizar esta

ferramenta ainda é desconhecido (CIMERMANCIC et al., 2014). Embora os agrupamentos

de genes biossintéticos (BGCs) tenham sido descobertos devido centenas de metabólitos

bacterianos, o conhecimento de sua diversidade continua a ser limitado. É nesse cenário que o

ClusterFinder atua como uma ferramenta que se caracteriza como um algoritmo para

identificar BGCs sistematicamente, visto a grande quantidade de dados de sequenciamento

microbianos existentes. Sendo assim, o algoritmo ClusterFinder detecta BGCs tanto das

classes conhecidas como das classes desconhecidas (CIMERMANCIC et al., 2014).

Essa ferramenta baseia-se exclusivamente nas frequências de domínio Pfam obtidas a

partir de 732 agrupamentos de genes com curadoria manualmente e tenta identificar ambas as

classes conhecidas e desconhecidas de moléculas (CIMERMANCIC et al., 2014). Algumas

desvantagens do ClusterFinder em comparação com o antiSMASH entre outras ferramentas,

incluem a experiência de interface de linha de comando e a necessidade do genoma de

interesse ter sido previamente carregado para JGI (Joint Genome Institute), além de anotados

manualmente com curadoria para obter o arquivo de entrada necessário (MICALLEF et al.,

2014).

16

CDS é um trecho de uma sequencia de DNA que codifica proteínas.

49

4.2. CIANOBACTÉRIAS

A resistência das bactérias aos antibióticos se espalha rapidamente, chegando a

ultrapassar o ritmo em que novos compostos são descobertos, enfatizando a necessidade

imediata de descobrir novos compostos para o controle de doenças infecciosas. Nesse

contexto, as bactérias têm sido investigadas por décadas como uma fonte de compostos

bioativos que conduzem a aplicações bem sucedidas em indústrias farmacêuticas e de

biotecnologia (MACHADO et al., 2015).

O filo das cianobactérias consiste em bactérias fotossintéticas que são conhecidas por

sua capacidade de sobreviver em diversos tipos de ambientes, exibindo uma morfologia

variada. Os genes que codificam produtos naturais biossintéticos geralmente são agrupados no

genoma, auxiliando na previsão estrutural do metabólito baseado na análise através da

bioinformática (MICALEFF et al., 2015) .

As cianobactérias compõem uma fonte rica de produtos naturais com atividades

biológicas interessantes (WANG et al., 2011). Por sua capacidade de produzir uma grande

variedade de substâncias de interesse biotecnológico, as cianobactérias ganham cada vez mais

destaque em diversas áreas de estudo. Contudo os dados biológicos provenientes do

conhecimento genômico são relativamente complexos em comparação aos oriundos de outras

áreas científicas (COUTO, 2014).

Através da sequência genômica de uma cianobactéria é possível construir modelos

metabólicos e utilizá-los como mapas para explorar o potencial biotecnológico contido nesses

genomas. Com o aumento da busca pelo uso de cianobactérias no ramo bioindustrial, surge a

necessidade de explorar a diversidade desses microrganismos, procurando identificar aqueles

que podem ser naturalmente mais adequados às condições desejadas, descobrindo genes que

geram produtos mais eficazes, acarretando em mais produtividade (LIMA, 2015).

A mineração dessas sequências de genoma permite a identificação e caracterização de

agrupamentos de genes de produtos naturais. No entanto, o número atual de genomas de

cianobactérias permanece baixo em comparação com outros filos. Contudo, há um esforço

recente para corrigir esse problema, aumentando o número de genomas sequenciados de

cianobactérias, permitindo a identificação de agrupamentos de genes biossintéticos para

estrutura de diversos metabólitos. Enquanto alguns dos agrupamentos de genes biossintéticos

identificados correlacionam com metabólitos conhecidos, a mineração de genoma também

destaca o número e a diversidade dos grupos para os quais o produto é desconhecido

(MICALLEF, 2014).

50

4.2.1. Genomas Utilizados

Nesse projeto foram selecionados três genomas: Cyanobium sp. CACIAM 14 que

constituí o primeiro genoma de uma cianobactéria amazônica completamente sequenciado ,

Synechocystis sp. CACIAM 05 draft do genoma amazônico cujo sequenciamento ainda está

em andamento e Synechocystis sp. PCC 6803.

A cianobactéria unicelular Cyanobium sp. CACIAM 14, foi separada a partir de uma

amostra de água coletada em Dezembro de 2010 na Usina Hidrelétrica de Tucuruí 3 ° 49'55

"S, 49 ° 38'50" W , no Estado do Pará, Brasil.

Os pesquisadores do LTB da Universidade Federal do Pará realizaram o

sequenciamento da cepa CACIAM 14 através da plataforma 454 GS FLX Roche Life

Science , onde foram submetidas duas culturas independentes para o sequenciador, as quais

foram cultivadas num intervalo de tempo de 6 meses. Os conjuntos de dados foram montados

separadamente com a ferramenta Newbler versão 2.6 tamanho mínimo de leitura, 45 pb;

sobreposição mínima, 40 pb; mínimos de identidade sobreposição, 90% .

Os contigs da CACIAM 14 foram identificados e separados utilizando um pipeline

metagenômico para a montagem de cada organismo hipotético, ou seja, a cianobactéria

isolada e a sua bactéria heterotrófica associada. Os contigs montados a partir da segunda

corrida foram usados para determinar a cobertura genoma. Já a anotação estrutural foi

realizada com a ferramenta PGAP Prokaryotic Genome Annotation Pipeline que está

disponível no NCBI LIMA, 2015 .

Atualmente a análise da cepa CACIAM 05 ainda está em andamento pelos

pesquisadores do Laboratório de Tecnologia Biomolecular da UFPA. Como ferramenta de

sequenciamento, está sendo utilizada a plataforma Illumina MiSeq, gerando bibliotecas de

leituras pareadas do tipo 2x151. As leituras obtidas através do sequenciamento da cepa

CACIAM 05 foram verificadas levando em consideração a qualidade phred através do

programa FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ . A ferramenta

utilizada para a montagem do genoma está sendo o Newbler versã0 3.0 tamanho mínimo de

leituras, 30 pb; sobreposição mínima, 20 pb; identidade mínima da sobreposição, 80% . As

sequências e os scaffolds17

são classificados taxonomicamente pela ferramenta MEGAN

versão 5 http://ab.inf.uni-tuebingen.de/software/megan/ . Por último, os scaffolds de

interesse foram selecionados e submetidos para anotação no servidor RAST

http://rast.nmpdr.org/ .

17

Scaffolds são agrupamentos de contigs, ou seja, podem ser considerados supercontigs.

51

Por último foi utilizada como insumo nesse projeto a cianobactéria unicelular

fotossintética Synechocystis sp. PCC 6803, que está disponível na plataforma NCBI

http://www.ncbi.nlm.nih.gov/nuccore/NR_076327.1 . Tal cianobactéria é definida como um

organismo modelo devido esse fator foi selecionada para a realização de análises e testes.

4.2.2. Formatos de Arquivos de Genomas

Um arquivo é uma unidade lógica (ou entrada) nos sistemas de arquivos. É função do

sistema operacional apresentar ao usuário um amigável e limpo modelo abstrato de arquivos

independentemente de dispositivo (TANENBAUM, 2000).

No contexto de arquivos biológicos, existem diversos tipos de arquivos comumente

utilizados para estudos in silico de sequências biológicas. Os dois formatos de arquivos de

armazenamento de informações biológicas mais utilizados para armazenar sequências e

anotações são, respectivamente, o formato FASTA e o formato GenBank (gbk). De acordo

com Guizelini (2010), o formato fasta é utilizado tanto para sequências de nucleotídeos e

quanto para sequências de aminoácidos, enquanto que o formato gbk possui as sequências, assim

como suas respectivas anotações, que são informações de elementos biológicos como regiões

codificantes, elementos móveis, tRNA, rRNA, que são associadas à um trecho da sequência.

4.2.2.1. Formato FASTA

O arquivo fasta é relativamente simples e compreende um conjunto de sequências que

são divididas pelos headers e sequences, de modo que para cada sequência existe um

cabeçalho (header) e a sequência (sequence) propriamente dita. As informações são

organizadas em um arquivo texto que normalmente possui até sessenta colunas. Cada

sequência pode ter uma linha de cabeçalho e várias linhas para compor as sequências. A linha

de cabeçalho é indicada através da presença do símbolo de maior (>) na primeira coluna

(COUTO, 2014). A Figura 10 apresenta um trecho contendo o conteúdo de um arquivo fasta.

14.

52

Figura 10: Trecho de um arquivo FASTA referente a cianobactéria Cyanobium sp. CACIAM 14. Fonte:

NCBI, 2015.

4.2.2.2. Formato GBK

Sobre a estrutura de um arquivo no formato GenBank, existe uma divisão interna

identificada pela posição dos textos nas respectivas colunas, na qual cada linha é composta

por duas partes. A primeira parte, com a extensão gbk, que contém as informações do

cabeçalho e a segunda parte que é onde se encontram as informações que a comunidade

científica procura, ou seja, as sequências genômicas e as respectivas anotações. Essa segunda

parte do arquivo é conhecida por “entry” e representa um registro ou ―entrada‖ no banco de

dados GenBank (GUIZELINI, 2010).

O formato gbk é popular e possui distribuição, acesso e manutenção facilitados, porém

a extração de informação e a análise podem necessitar do auxílio de ferramentas

53

especializadas para facilitar o processo de leitura e análise. Na figura 11 é possível visualizar

um exemplo de trecho um arquivo no formato Genbank.

Figura 11: Trecho de um arquivo GBK referente a cianobactéria Cyanobium sp. CACIAM 14.

Fonte: NCBI, 2015.

Como observado na figura 11, arquivos gbk possuem diversos campos além do nome e

da sequência. Abaixo, são apresentadas as definições de alguns campos de um arquivo gbk:

LOCUS: Identifica a primeira linha de uma entrada e um nome curto mnemônico que

é escolhido para sugerir a definição da sequência.

DEFINITION: Uma descrição concisa da sequência.

ACCESSION: É uma chave de acesso única que não se altera.

54

VERSION: O campo versão é composto por duas unidades; à primeira unidade é

composta pelo número de acesso e o número incremental da versão. Já a segunda

unidade contém um número de identificação interna do NCBI para a sequência,

KEYWORDS: Frases curtas que descrevem os produtos dos genes ou outras

informações sobre a entrada.

SOURCE: Nome do organismo ou nome mais frequentemente visto na literatura.

ORGANISM: Nome científico formal do organismo e níveis de classificação de

taxonomia.

REFERENCE: Citações para todos os artigos que contêm dados sobre a determinada

entrada (arquivo gbk).

AUTHORS: Lista dos autores da citação.

TITLE: Título completo da citação.

JOURNAL: Nome do periódico, volume, ano e páginas onde foi publicado.

COMMENT: Comentários, anotações, comparações e alterações relacionadas á

sequência.

4.3. PIPELINE

Com objetivo de modelar o processo, um pipeline foi proposto, através dele foram

escolhidas as ferramentas, assim como a sua ordem de execução para organizar a extração das

informações necessárias ao processo de predição. O modelo do pipeline pode ser observado

através da figura 12.

55

Figura 12: Pipeline de Predição de Clusters Gênicos. Fonte: Elaborada pelo autor.

A primeira etapa para a execução do fluxo proposto pelo pipeline mostrado na figura

12 é composta pela entrada de dados, foram selecionadas três cianobactérias convertidas em

arquivos de formato fasta ou gbk. Tais arquivos foram executados na ferramenta antiSMASH

local versão 2.0 para identificar vias metabólicas secundárias. Logo após os mesmos arquivos

foram executados no antiSMASH online versão 3.0.2 figura 13 .

56

Figura 13: Parâmetros utilizados na execução do antiSMASH online. Fonte: antiSMASH, 2015.

Logo após, os arquivos gbk e fasta foram executados na ferramenta NP.searcher versão

local e posteriormente também na versão online. A última ferramenta utilizada na primeira

fase de execução do pipeline foi a ferramenta JemBoss

http://emboss.sourceforge.net/Jemboss/ , essa ferramenta é comumente utilizada para vários

fins na bioinformática e nesse trabalho essa ferramenta foi utilizada para extrair as CDS dos

arquivos biológicos.

As CDS obtidas a partir da corrida na ferramenta JemBoss foram posteriormente

utilizadas como entrada para os programas NapDos figura 14 e DoBiscuit.

57

Figura 14: Parâmetros utilizados na execução do NapDos online. Fonte: NapDos, 2015.

Como pode ser observado no pipeline, a visualização dos resultados gerados pelas

plataformas antiSMASH, NP.searcher, NapDos e DoBiscuit foi observado através da

ferramenta Artemis versão 16.0.0 figura 15 , na qual foi possível observar as regiões

codificantes, as ORFs, contigs, entre outros parâmetros de busca.

O Artemis é um visualizador de sequência de DNA e uma ferramenta de anotação que permite

a visualização das características das sequências e os resultados das análises dentro do

contexto da sequência. Essa ferramenta é escrita em Java, lê sequências em formato EMBL,

Genbank, entre outros e pode trabalhar em seqüências de qualquer tamanho. As instruções

para instalação e execução do Artemis estão disponíveis no apêndice D.

58

Figura 15: Visualização do arquivo gbk na ferramenta Artemis. Fonte: Artemis, 2015.

59

5. RESULTADOS E DISCUSSÕES

5.1. EXECUÇÃO NA FERRAMENTA ANTISMASH

Seguindo os passos apresentados outrora no pipeline (figura 12), a execução das

ferramentas foi realizada. O primeiro programa de predição utilizado foi o antiSMASH e os

comandos utilizados para a instalação, execução e utilização dessa ferramenta local na versão

2.0 estão disponíveis no apêndice A.

Tanto na execução local como na online, arquivos gbk e fasta referentes aos genomas,

foram utilizados como insumo no antiSMASH, objetivando comparar os resultados gerados

entre as versões locais e online e entre os formatos de arquivos biológicos (gbk e fasta). A

versão utilizada na execução online foi o antiSMASH 3.0.2 e o primeiro genoma analisado

foi referente a cianobactéria Cyanobium sp. CACIAM 14 e os resultados podem ser

observados através da tabela 1.

Tabela 1 – Clusters de metabólitos secundários identificados na cianobactéria Cyanobium sp.

CACIAM 14 através do antiSMASH online

- - Tipo - -

Cluster Local (Contig) Arquivo FASTA Arquivo GBK De Para

1

JMRP01000001

Hipotético Hipotético 32511

36882 gbk

-

39903 fasta

2 Hipotético Hipotético 102513 108563

3 - Sacarídeo 214266 238618

4 Sacarídeo - 73667 94818

5 Sacarídeo - 147534 169078

6 Sacarídeo - 213966 238618

7 Sacarídeo - 2888655 309593

8

JMRP01000003

- Bacteriocina 63092 73307

9 - Sacarídeo 84227 94531

10 Sacarídeo Sacarídeo 110707

164392 gbk

-

166363 fasta

11 Sacarídeo - 1 128512

12 Sacarídeo –

Bacteriocina - 37507 99531

13 JMRP01000005 Hipotético Hipotético 111546 119195 gbk

-

60

119195 fasta

14 JMRP01000006 Ácido Graxo –

Terpeno

Ácido Graxo –

Terpeno

863 gbk

-

815 fasta

81546 gbk

-

49463 fasta

15

JMRP01000007

Sacarídeo - 32493 53593

16 Hipotético - 55483 69299

17 Sacarídeo - 85526 99835

18 JMRP01000008 Sacarídeo - 31666 52634

19 JMRP01000009 Sacarídeo - 29123 51240

20 JMRP01000010 Hipotético Hipotético 39161 45397

21 JMRP01000013 Bacteriocina Bacteriocina 40835 61382

22 JMRP01000016 Sacarídeo - Terpeno Ácido Graxo –

Terpeno 13355

57753 gbk

-

47070 fasta

23 JMRP01000018 Sacarídeo - 17774 39039

24 JMRP01000020 Bacteriocina Bacteriocina 28296 49886

25 JMRP01000021 Hipotético Hipotético 41158

45477 gbk

-

48458 fasta

26 JMRP01000022 Sacarídeo Sacarídeo 4481 45313

27 JMRP01000024 Sacarídeo Sacarídeo 632 22977

28 JMRP01000025 Sacarídeo Sacarídeo

13316

gbk

-

11419

fasta

40264

29 JMRP01000027 Sacarídeo - 1 20655

30 JMRP01000031 Bacteriocina Bacteriocina 17305 33185

31 JMRP01000032 Terpeno Terpeno 12754 32615

32 JMRP01000033 Sacarídeo - 10657 31609

33 JMRP01000037 Sacarídeo Sacarídeo 1 29780

34 JMRP01000039 Sacarídeo Sacarídeo 1 27365

35 JMRP01000042 Ácido Graxo Ácido Graxo 680 25850

36 JMRP01000043 - Hipotético 1470 10328

37 JMRP01000044 Sacarídeo - 2428 24157

38 JMRP01000047

- Hipotético 8845 18013

39 Sacarídeo - 1 19395

40 JMRP01000056 Sacarídeo - 1 12881

61

41 - Hipotético 7855 12440

Fonte: Adaptado de antiSMASH, 2015.

Os resultados individuais das execuções online do antiSMASH com os arquivos gbk e

fasta concernentes ao genoma da cianobactéria Cyanobium sp. CACIAM 14 obtiveram como

resultado 35 clusters na rodada referente ao arquivo fasta, enquanto que a execução com o

arquivo gbk encontrou somente 24. No total, através da análise comparativa entre os arquivos,

foram encontrados 41 clusters nos contigs. Contudo, analisando a quantidade de produtos

encontrados, alinhados ao local onde o trecho codificante se encontra, foram detectados 42

possíveis produtos, já que o cluster 22 detectou a presença de dois tipos de compostos

diferentes. A tabela abaixo representa um resumo geral da quantidade de produtos

encontrados nessa execução, tanto nos arquivos de formatos de arquivo fasta, como nos

arquivos gbk.

Tabela 2 – Quantidade de produtos detectados por formato de arquivo na execução online do

antiSMASH 3.0.2 na cianobactéria Cyanobium sp. CACIAM 14

Tipo de Produto Detectado Arquivo FASTA Arquivo GBK

Ácido Graxo 2 3

Bacteriocina 4 4

Hipotético 6 8

Sacarídeo 23 8

Terpeno 3 3

O genoma da Cyanobium sp. CACIAM 14 também foi executado no antiSMASH

local versão 2.0, utilizando arquivos gbk e fasta, anotados com as ferramentas NCBI PGAP e

RAST, respectivamente. Ambos geraram ao total 15 clusters, os resultados separados tanto da

execução com arquivo gbk como da execução com o formato fasta geraram 14 clusters.

Contudo, um produto hipotético, cuja localização difere se comparado ao arquivo gbk, foi

encontrado somente no formato fasta, assim como uma bacteriocina foi detectada no formato

gbk e não foi encontrada no arquivo fasta. Abaixo, segue a tabela 3, onde os resultados da

corrida local podem ser observados.

Tabela 3 – Clusters de metabólitos secundários identificados na cianobactéria Cyanobium sp.

CACIAM 14 através do antiSMASH local

62

- - Tipo - -

Cluster Local (Contig) Arquivo FASTA Arquivo GBK De Para

1 JMRP01000001 Hipotético - 220424 230592

2 JMRP01000003 Bacteriocina Bacteriocina 63092 73307

3 JMRP01000003 Bacteriocina Bacteriocina 84277 94531

4 JMRP01000003 Hipotético Hipotético 110707 164392

5 JMRP01000005 Bacteriocina Bacteriocina 10997 21254

6 JMRP01000005 Hipotético Hipotético 111534 119195

7 JMRP01000006 Terpeno Terpeno 20617 41546

8 JMRP01000016 Terpeno Terpeno 14662 44720

9 JMRP01000020 Bacteriocina Bacteriocina 28296 49886

10 JMRP01000025 Hipotético Hipotético 13316 37560

11 JMRP01000031 Bacteriocina Bacteriocina 17305 33185

12 JMRP01000032 Terpeno Terpeno 12730 32615

13 JMRP01000042 Hipotético Hipotético 8019 22257

14 JMRP01000056 Hipotético Hipotético 7855 12398

15 JMRP01000013 - Bacteriocina 40835 61382

Logo, pode ser observado que, as versões geradas pelos diferentes tipos de arquivos

também diferem na quantidade de tipos de clusters preditos, como pode ser observado na

tabela 4, referente a corrida local do antiSMASH.

Tabela 4 – Quantidade de produtos detectados por formato de arquivo na execução local do

antiSMASH 2.0 na cianobactéria Cyanobium sp. CACIAM 14

Tipo de Produto Detectado Arquivo FASTA Arquivo GBK

Ácido Graxo - -

Bacteriocina 5 6

Hipotético 6 5

Sacarídeo - -

Terpeno 3 3

Logo, com relação à localização da predição desses clusters na execução online na

Cyanobium sp. CACIAM 14, o cluster 12 na entrada gbk não apresentou nenhum tipo de

produto, enquanto que a entrada fasta continha além de um produto de sacarídeo, um produto

63

do tipo bacteriocina. Também pode ser ressaltado o fato do cluster 22 ter apresentado a

ocorrência de dois tipos de clusters diferentes, sendo que o cluster 22 na estrada fasta possui

um cluster de sacarídeo, ao passo que a entrada gbk apresenta um cluster de ácido graxo para

o mesmo cluster, contudo para ambos os tipos de arquivos no houve ocorrência de um

produto a mais do tipo terpeno.

A execução online também variou quanto ao número de clusters preditos de acordo

com a entrada, foram 24 clusters para a entrada RAST contra 35 clusters para a entrada fasta.

Além do mais, nota-se que a versão online consegue predizer mais clusters, dada a

incorporação dos clusters de sacarídeos e ácidos graxos. Em suma, nota-se que, baseando-se

nos dados das corridas locais, a qualidade da anotação interfere diretamente na capacidade de

predição da ferramenta.

Os mesmos procedimentos, outrora utilizados, relacionados ao uso da ferramenta

antiSMASH online foram aplicados ao genoma da Synechocystis sp. CACIAM 05 e geraram

resultados que podem ser observados na tabela 5.

Tabela 5 - Clusters de metabólitos secundários identificados na cianobactéria Synechocystis

sp. CACIAM 05 do antiSMASH online

- - Tipo - -

Cluster Local (Contig) Arquivo

FASTA Arquivo GBK De Para

1 c00005_scaffold00026 -

unknown_3 Sacarídeo Sacarídeo 17628 48701

2 c00007_scaffold00317 -

unknown_5 Terpeno Terpeno 1 4811

3

c00012_scaffold00001 -

unknown_10

Sacarídeo Sacarídeo 10008 51989

4 Sacarídeo Sacarídeo 53435 75812

5 Sacarídeo - 97893 119149

6 Ácido Graxo Ácido Graxo 187053 208393

7 c00024_scaffold00003

Sacarídeo - 8285 29382

8 Sacarídeo - 138955 159956

9 c00025_scaffold00011 -

unknown_23 Sacarídeo Sacarídeo 87389 104897

10 c00027_scaffold00016 Sacarídeo - 20361 41548

11 c00031_scaffold00023 -

unknown_29 Hipotético Hipotético 3634

15527 gbk

-

15485 fasta

64

12 c00036_scaffold00022 -

unknown_34

Ácido Graxo –

Sacarídeo Ácido Graxo 8393

29385 gbk

-

33202 fasta

13 c00037_scaffold00028 Sacarídeo - 27721 47803

14 c00038_scaffold00015

Sacarídeo - 1 11391

15 Sacarídeo - 59823 72068

16 c00040_scaffold00020

Sacarídeo - 17302 38471

17 Sacarídeo - 53796 65559

18 c00041_scaffold00012 -

unknown_39

Sacarídeo -

Terpeno Terpeno

28277 gbk

-

8221 fasta

49092

19 c00042_scaffold00005 -

unknown_43

Sacarídeo - 2693 32622

20 Hipotético Hipotético 75531 81474

21 c00044_scaffold00030 -

unknwon_42 Hipotético Hipotético 27630 34908

22 c00045_scaffold00008 Sacarídeo - 7194 48184

23 c00049_scaffold00014 Sacarídeo - 6640 28079

24 unknown_25 - Hipotético 29285 40784

25 unknown_38 - Hipotético 33741 37331

26 unknown_40

- Hipotético 2723 14601

27 - Sacarídeo 7233 28228

28 unknown_47 - Hipotético 16640 26847

Fonte: Adaptado de antiSMASH, 2015.

A execução da cianobactéria Synechocystis sp. CACIAM 05 na ferramenta

antiSMASH online gerou como resultados 23 clusters para a entrada do arquivo fasta. Em

contrapartida a entrada gbk gerou somente 16. Vale ressaltar que os clusters 12 e 18 em

ambas as entradas apresentaram diferenças no que se refere ao tipo de produto predito. No

cluster 12, tanto a entrada fasta como a entrada gbk apresentaram a ocorrência de um produto

do tipo ácido graxo, no entanto, o arquivo fasta detectou, além do ácido graxo, um de

sacarídeo. O cluster 18 apresentou resultados similares, contudo, no arquivo fasta houve a

detecção de um sacarídeo e um terpeno, enquanto que o arquivo gbk apresentou somente um

produto do tipo terpeno. A quantidade de produtos encontrados por tipo está disponível na

tabela 6.

Tabela 6 – Quantidade de produtos detectados por formato de arquivo na execução local do

65

antiSMASH 2.0 na cianobactéria Synechocystis sp. CACIAM 05

Tipo de Produto Detectado Arquivo FASTA Arquivo GBK

Ácido Graxo 2 2

Bacteriocina - -

Hipotético 3 7

Sacarídeo 18 5

Terpeno 2 2

Em paralelo, execuções utilizando essa ferramenta na versão local 2.0 também foram

realizadas, tendo com entrada os arquivos gbk e fasta referentes a cianobactéria Synechocystis

sp. CACIAM 05. Os resultados da execução local se encontram disponíveis através da tabela

7.

Tabela 7 - Clusters de metabólitos secundários identificados na cianobactéria Synechocystis

sp. CACIAM 05 do antiSMASH local

- - Tipo - -

Cluster Local (Contig) Arquivo FASTA Arquivo GBK De Para

1 scaffold00317 Terpeno Terpeno 1 4811

2 scaffold00023 Hipotético Hipotético 3634 15461

3 scaffold00012 Terpeno Terpeno 28277 49092

Após a execução local foram identificados 3 clusters, sendo que todos pertenciam ao

mesmo tipo. Embora a versão online do antiSMASH tenha identificado 23 clusters para o

arquivo fasta e 16 para o arquivo gbk, após análises realizadas pelos pesquisadores do LTB

foi constatado que se tratava dos mesmos 3 clusters previstos através da versão local

acrescidos de clusters de sacarídeos e ácidos graxos.

Por intermédio desses resultados foi constatado que a versão 3.0.3 do antiSMASH

incluiu novos identificadores para clusters de sacarídeos e ácido graxo. Sendo que eles

compõem duas classes de produtos naturais importantes a serem explorados pela indústria.

O terceiro arquivo executado na plataforma antiSMASH online versão 3.0.2 foi

referente ao genoma da cianobactéria Synechocystis sp. PCC 6803, os resultados da

ferramenta versão online podem ser observados na tabela 8.

66

Tabela 8 - Clusters de metabólitos secundários identificados na cianobactéria Synechocystis

sp. PCC 6803 do antiSMASH online

- - Tipo - -

Cluster Local (Contig) Arquivo FASTA Arquivo GBK De Para

1 c00001_gi4711... Sacarídeo - 47340 70935

2 c00001_gi4711... Sacarídeo - 208789 279727

3 c00001_gi4711... Sacarídeo - 352263 406941

4 c00001_gi4711... Sacarídeo - 5507027 528211

5 c00001_gi4711... Ácido Graxo - 810102 831442

6 c00001_gi4711... Sacarídeo - 895575 916789

7 c00001_gi4711... Sacarídeo - 939397 961774

8 c00001_gi4711... Sacarídeo - 965779 1007821

9 c00001_gi4711... Hipotético - 1170571 1184664

10 c00001_gi4711... Terpeno - 1389298 1410311

11 c00001_gi4711... Hipotético - 1519114 1523310

12 c00001_gi4711... Terpeno - 1540946 1562895

13 c00001_gi4711... Sacarídeo-Ácido

Graxo - 1584119 1608928

14 c00001_gi4711... Sacarídeo - 1619604 1673508

15 c00001_gi4711... Sacarídeo - 1688811 1709980

16 c00001_gi4711... Sacarídeo - 1826691 1848130

17 c00001_gi4711... Sacarídeo - 1922354 1943418

18 c00001_gi4711... Sacarídeo - 2022951 2070975

19 c00001_gi4711... Sacarídeo - 2235597 2276646

20 c00001_gi4711... Sacarídeo - 2375921 2397441

21 c00001_gi4711... Sacarídeo - 2419543 2440964

22 c00001_gi4711... Hipotético - 2506131 2513564

23 c00001_gi4711... Sacarídeo - 2556142 2577143

24 c00001_gi4711... Sacarídeo - 2687151 2708248

25 c00001_gi4711... Hipotético - 2839957 2847189

26 c00001_gi4711... Sacarídeo - 2890089 2910862

27 c00001_gi4711... Sacarídeo - 2956735 2977931

28 c00001_gi4711... Hipotético - 3034783 3041415

29 c00001_gi4711... Sacarídeo - 3130713 3152875

30 c00001_gi4711... Terpeno-

Sacarídeo - 3181661 3221606

67

31 c00001_gi4711... Sacarídeo - 3362502 3383689

32 c00001_gi4711... Sacarídeo - 3448234 3469397

33 c00001_gi4711... Hipotético - 3532600 3542936

34 AP012205 - Sacarídeo 1 3571103

35 AP012205 - Ácido Graxo 1 3571103

36 AP012205 - Sacarídeo 1 3571103

37 AP012205 - Sacarídeo 1 3571103

38 AP012205 - Terpeno 1 3571103

39 AP012205 - Terpeno 1 3571103

40 AP012205 - Ácido Graxo 1 3571103

41 AP012205 - Sacarídeo 1 3571103

42 AP012205 - Sacarídeo 1 3571103

43 AP012205 - Sacarídeo 1 3571103

44 AP012205 - Terpeno 1 3571103

Fonte: Adaptado do antiSMASH,2015.

Já a corrida antiSMASH online na cianobactéria Synechocystis sp. PCC 6803 revelou

33 clusters gênicos para a entrada fasta e 11 para a entrada gbk. A corrida online não

identificou nenhuma detecção similar aos dois arquivos, devido á um provável erro de

interpretação dos resultados, já que o valor apresentado corresponde ao valor do genoma

completo, pois o mesmo não está dividido em contigs. A tabela 9 apresenta um resumo geral

da quantidade de metabólitos secundários preditos pelo antiSMASH nessa execução.

Tabela 9 - Quantidade de produtos detectados por formato de arquivo na execução local do

antiSMASH 2.0 na cianobactéria Synechocystis sp. PCC 6803

Tipo de Produto Detectado Arquivo FASTA Arquivo GBK

Ácido Graxo 2 2

Bacteriocina - -

Hipotético 6 -

Sacarídeo 24 6

Terpeno 3 3

Após a execução online, a execução local foi iniciada. Através dos seus resultados

68

foram identificados 9 clusters, sendo que todos pertenciam ao mesmo tipo, sendo que 3 desses

clusters são do tipo terpeno e 5 do tipo hipotético ou seja, aquele cujo produto ainda é

desconhecido, mas que deve ser levado em consideração por existir a possibilidade de haver

potencial biológico. Nessa execução, tanto os arquivos fasta como os gbk obtiveram o mesmo

resultado que é apresentado na tabela 10.

Tabela 10 - Clusters de metabólitos secundários identificados na cianobactéria Synechocystis

sp. PCC 6803 do antiSMASH local

- - Tipo - -

Cluster Local (Contig) Arquivo FASTA Arquivo GBK From To

1 Gi47118304... Hipotético Hipotético 352263 357210

2 Gi47118304... Hipotético Hipotético 360030 381175

3 Gi47118304... Terpeno Terpeno 1389298 1410311

4 Gi47118304... Terpeno Terpeno 1540952 1562895

5 Gi47118304... Hipotético Hipotético 1626518 1639247

6 Gi47118304... Hipotético Hipotético 2381113 2397441

7 Gi47118304... Hipotético Hipotético 2893184 2900862

8 Gi47118304... Terpeno Terpeno 3181661 3202476

9 Gi47118304... Hipotético Hipotético 3532600 3542912

Nas execuções da versão online do antiSMASH, o algoritmo ClusterFinder foi

utilizado como parametro para a detecção de agrupamentos de genes hipotéticos, além da

análise Pfam sobre todo o genoma. As outras configurações utilizadas na busca foram os

parâmetros padrões da ferramenta.

Em geral, os resultados encontrados na versão local do antiSMASH, não apresentaram

mudanças significativas em comparação com os resultados da versão online. Contudo, o

resultado pode variar de acordo com o tipo de entrada e os tipos de ferramentas utilizadas para

a anotação do genoma contido nos arquivos fasta e gbk analisados.

Os resultados da corrida antiSMASH versão online podem ser configurados através de

filtros disponíveis no site, como as buscas costumam ser demasiadamente demoradas o

usuário tem a opção de colocar o e-mail no momento da busca e receber o resultado após

alguns dias dependendo do tamanho do arquivo á ser analisado.

Após a execução dos resultados na versão online, o antiSMASH apresenta, entre suas

diversas funcionalidades, a possibilidade de ver a homologia entre os clusters (figura 16).

69

Figura 16: Representação antiSMASH da homologia entre os clusters gênicos similares aos contidos no

genoma da Synechocystis sp. PCC 6803. Fonte: antiSMASH, 2015.

5.2. EXECUÇÃO NA FERRAMENTA NP.SEARCHER

Seguindo os passos propostos pelo pipeline, a ferramenta NP.searcher foi utilizada

com os mesmos objetivos da ferramenta antiSMASH. Os arquivos gbk referentes aos

genomas das cianobactérias foram executados no NP.searcher local e os comandos utilizados

para a manipulação dos arquivos e instalação dessa ferramenta estão disponíveis no apêndice

B.

Após rodar o comando clusterfinder.exe, os clusters descobertos têm suas sequências

em nucleotídeos (DNA) colocados na pasta CLUSTER. Um arquivo com o mesmo nome do

cluster será colocado na pasta SMILES. Este arquivo na pasta SMILES contém as estruturas

dos produtos naturais formados, junto as suas sequências de aminoácidos.

Após a execução da ferramenta, a pasta principal conterá arquivos gbk com os clusters

preditos, um arquivo embl e outro arquivo gbk contendo o genoma completo com os

agrupamentos gênicos descobertos. Já o arquivo html permite a visualização dos resultados

como se fossem submetidos na versão online dessa ferramenta, além de conter os clusters e a

identificação das CDS com os produtos preditos legendados.

O arquivo geneclusters.txt contém informações sobre o tipo de agrupamento

70

encontrado no genoma (ou contig/scaffold se o mesmo ainda não estiver completo). A pasta

svg contém as figuras do clusterblast para cada cluster, mostrando a comparação por blast de

cada agrupamento gênico com um organismo cujo genoma seja similar, objetivando a

comparação da arquitetura desse cluster. Tal comparação pode ser vista com mais detalhes

através da pasta clusterblast.

A pasta nrpspks_predictions_txt contém predições de domínios PKS e NRPS, a pasta

smcogs contém figuras de filogenias realizadas com genes dos clusters, buscando relações

evolutivas entre grupos de organismos.

A execução da ferramenta NP.searcher em todos os genomas utilizados como teste

nesse trabalho apresentou poucos resultados, sendo que a versão online não apresentou

nenhum resultado. Em contrapartida, o resultado da versão local apresentou alguns arquivos

como resultados da busca. Após análises realizadas nesses resultados, pode ser considerado

como problemática o fato de que o NP.searcher não aponta quais são as CDS que estão em

determinada região do cluster, embora informe sua posição no genoma. Assim, segundo os

pesquisadores do LTB, uma inspeção manual mais apurada é necessária para verificar o

trecho do genoma e analisar quais CDS participam da formação do produto detectado.

5.3. EXECUÇÃO NA FERRAMENTA JEMBOSS

A ferramenta JemBoss faz parte de um conjunto de programas que são encontrados ao

instalar o BioLinux, que se trata de um sistema robusto com uma gama variada de programas

relacionados que foi criado com o objetivo de auxiliar algumas das principais atividades dos

bioinformatas, a instalação do BioLinux (http://environmentalomics.org/bio-linux-download/)

pode ser realizada através do terminal Ubuntu/Linux com o seguinte comando:

Após a instalação do BioLinux, diversas ferramentas estarão disponíveis para

utilização e uma delas é o JemBoss. Essa ferramenta foi utilizada para extrair os dados de

proteína dos arquivos correspondentes as cianobactérias e exportar esses resultados com a

extensão (.fasta) e posteriormente utilizar como insumos de ferramentas de predição NapDos

e doBiscuit.

O primeiro comando utilizado na ferramenta Jemboss foi o CODERET, que é

responsável pela extração das CDS dos arquivos de genoma utilizados como entrada, o

comando pode ser observado através do quadro abaixo:

coderet -seqall/var/www/Bioinformática/arquivo_do_genoma.gbk -auto

wget -qO-http://nebc.nerc.ac.uk/downloads/bl8 only/upgrade8.sh | sudo sh

71

O segundo comando utilizado na ferramenta Jemboss foi o TRANSEQ, esse comando

é quem de fato realiza a extração dos dados de proteína (CDS) e pode ser observado no

quadro abaixo. O resultado desse comando foi utilizado como entrada para gerar resultados na

ferramenta NapDos e doBiscuit.

O JemBoss também pode ser executado via interface gráfica, a figura 17 exemplifica

o caso da utilização do comando CODERET para extração das CDS através da interface, onde

é necessário selecionar o tipo de entrada e depois o arquivo fasta ou gbk desejado através do

botão ―Browse files‖ para o upload do arquivo. Logo após clicar em ―Go‖ e aguardar o

processamento dos dados. Após um período o mesmo resultado disponível via linha de

comando será apresentado via interface, contudo apresentado de maneira diferente.

transeq -sequence/var/www/Bioinformática/arquivo_do_genoma.gbk -frame 1 -table

0 -notrim -noclean -noalternative -methionine -auto

72

Figura 17: Interface do JemBoss rodando o comando Coderet nos arquivos gbk.

Os dados de proteína contidos nos arquivos gbk referentes á Synechocystis sp.

CACIAM 05, Cyanobium sp. CACIAM 14 e Synechocystis sp. PCC 6803, resultantes da

execução do comando TRANSEQ na ferramenta Jemboss foram exportados através dessa

ferramenta em formato fasta e utilizados como entradas válidas para execução na ferramenta

NapDos e posteriormente na ferramenta doBiscuit.

5.4. EXECUÇÃO NA FERRAMENTA NAPDOS

Seguindo o fluxo de execução proposto no pipeline, a ferramenta NapDos foi

executada. Os parâmetros utilizados na busca NapDos foram os mesmos para todos os

arquivos fasta, ou seja, busca por domínios KS, HMM cutoff de 1e -5, tamanho mínimo de

correspondência de 200 aa, máximo de acessos salvos por consulta igual a 1 e versão do

banco de dados pks_03_sdsc.

O primeiro arquivo fasta executado nessa ferramenta foi referente à cianobactéria

73

Synechocystis sp. CACIAM 05. O número de sequências de entrada correspondeu a 2090 e os

resultados podem ser observados através da figura 18.

Figura 18: Resultado da corrida NapDos online com o genoma do cianobactéria Synechocystis sp.

CACIAM 05. Fonte: NapDos, 2015.

Os resultados da corrida na Synechocystis sp. CACIAM 05 demonstraram a presença

de duas CDS codificantes, ambas se assemelharam ao organismo cujo id no banco de dados

do NapDos corresponde ao FabF_Bacillus_FAS com percentual de identidade de 59 e 33%

respectivamente. O tamanho do alinhamento foi 408 para as duas CDS, além de um e-value

de 7e-128 e 2e-43, apresentando como via do produto a síntese de ácido graxo e classe de

dominío FAS.

O segundo arquivo fasta apresentado como insumo no NapDos foi concernente ao

genoma da cianobactéria Cyanobium sp. CACIAM 14, apresentando número de sequências de

entrada correspondente a 2935 e seus resultados são apresentados através da figura 19.

Figura 19: Resultados da corrida NapDos online com o genoma do cianobactéria Cyanobium sp. CACIAM

14. Fonte: NapDos, 2015.

A corrida NapDos no genoma da cianobactéria Cyanobium sp. CACIAM 14

demonstrou a presença de somente uma CDS, cujo id no banco de dados do NapDos

corresponde ao FabF_Bacillus_FAS com percentual de identidade de 56%. O tamanho do

alinhamento foi 406 e o valor do e-value de 2e-130, apresentando como produto um ácido

graxo e classe de dominío FAS.

A terceira sequência executada no NapDos foi pertinente ao genoma da cianobactéria

Synechocystis sp. PCC 6803, que apresentou número de sequências de entrada corresponde a

3171 e os resultados dessa execução podem ser observados através da figura 20.

74

Figura 20: Resultado da corrida NapDos online com o genoma da cianobactéria Synechocystis sp. PCC

6803. Fonte: NapDos, 2015.

A última execução na ferramenta NapDos referente ao genoma da Synechocystis sp.

PCC 6803 apresentou duas CDS codificantes, ambas se assemelharam ao organismo cujo id

no banco de dados do NapDos corresponde ao FabF_Bacillus_FAS com percentual de

identidade de 59 e 31% respectivamente. O tamanho do alinhamento para a primeira CDS foi

408 e para a segunda foi de 412, o valor do e-value de 6e-129 e 1e-44, apresentando como via

do produto a síntese de ácido graxo e classe de dominío FAS.

5.5. EXECUÇÃO NA FERRAMENTA DOBISCUIT

Compondo a última etapa no que se refere a predição de clusters gênicos proposta

nesse trabalho, a ferramenta doBiscuit foi executada, tanto na versão online como na versão

local. Através de execução dessa ferramenta na versão online, observou-se que os arquivos

fasta referentes aos genomas não eram executados com o cabeçalho, dificultando o processo

de predição já que todas as CDS teriam que ser executadas individualmente para que a

identificação do trecho codificante fosse encontrado, se tornando um processo

demasiadamente demorado.

Logo, buscando contornar esse problema, um download dos arquivos contidos no

banco de dados da ferramenta doBiscuit foi realizado, e com esses dados, posteriormente foi

criado um banco de dados BLAST (os comandos referentes ao download e criação do banco

de dados doBiscuit estão disponíveis através do Apêndice C).

A ferramenta BLAST é comumente utilizada para pesquisas na área da bioinformática

e realiza a busca por similaridades, além de possuir diversos tipos. O tipo de BLAST utilizado

para pesquisas nesse trabalho foi o BLASTp que é o responsável por fazer a busca de

proteínas em arquivos fasta.

Após a criação do banco de dados doBiscuit, é necessário colocar os arquivos fasta

referentes ao banco doBiscuit outrora criado e os genomas que serão analisados e o dentro da

pasta ―db‖ no BLAST. Logo após, executar o comando abaixo para realizar a busca por

75

compostos contidos nos arquivos fasta dos genomas através do banco da ferramenta

doBiscuit.

Esse comando possui diversos parametros, o –query indica o arquivo a ser analisado, o

paramêtro –db indica o banco ao qual de deseja realizar a pesquisa, o parametro –out indica o

arquivo de saída que conterá os resultados, já o -num_alignments retorna os melhores

alinhamentos computados pelo algoritmo dependendo do valor atribuído, nesse caso foi 1. Já

o -outfmt é um parametro que indica o formato do arquivo de saída, neste caso o valor 6

indica que o formato tabular, que é mais legível para a separação das sequências. O parametro

–evalue é um valor em notação científica e o –num_threads indica o número de processadores

utilizados na execução da busca BLASTp.

Logo após a execução desse comando, os resultados referentes aos genomas foram

gerados em um arquivo de texto apresentado em formato tabular, como demonstrado nos

Anexos A, B e C, onde cada coluna significa, respectivamente:

ID da sequência: Identificador da sequência fasta submetida ao BLASTp;

ID da sequência doBiscuit: Identificador da sequência fasta referente ao banco

de dados doBiscuit;

Porcentagem de identidade da sequência do genoma com determinado produto

no banco doBiscuit;

Tamanho do Alinhamento;

Número de mismatches: Número de alinhamentos errôneos;

Número de gaps: Pulos durante a execução do alinhamento;

Query Start: Posição inicial do alinhamento da sequência fasta submetida;

Query End: Posição final do alinhamento da sequência fasta submetida;

Subject Start: Posição inicial do alinhamento da sequência no banco de dados

doBiscuit;

Subject End: Posição final do alinhamento da sequência no banco de dados

doBiscuit.

A execução do BLASTp utilizando o banco de dados doBiscuit no fasta da

cianobactéria Synechocystis sp. CACIAM 05, apresentou um total de 312 alinhamentos

$ blastp -query <arquivo_de_entrada.fasta> -db <banco_de_dados_doBiscuit>

-out <arquivo_de_saida.txt> -outfmt 6 –evalue 1e-5 -num_alignments 1 -num_threads

<número_de_processadores> &

76

encontrados para 156 CDS codificantes, os resultados dessa corrida estão disponíveis através

de uma tabela no Anexo A.

Logo após, o arquivo fasta da cianobactéria Cyanobium sp. CACIAM 14 foi

executado, apresentando como resultados um total de 275 alinhamentos para as 240 CDS

codificantes, os resultados dessa corrida podem ser observados no Anexo B.

Por fim, a execução BLASTp foi realizada no arquivo fasta da cianobactéria

Synechocystis sp. PCC 6803 e resultou na ocorrência de 202 alinhamentos, para os quais

havia 191 CDS codificantes, a tabela com esses resultados está acessível através do Anexo C.

5.6. RESULTADO GERAL DAS EXECUÇÕES NAS FERRAMENTAS DE PREDIÇÃO

A tabela 11 realiza uma síntese no que se refere ao número total de produtos naturais

detectados nos genomas das cianobactérias que foram objeto de estudo deste trabalho,

avaliando os resultados de todas as ferramentas de predição de cluster gênico tanto locais

como online, levando em consideração o tipo do arquivo, assim como a ferramenta utilizada

na sua anotação.

Tabela 11 - Número Total de Produtos Naturais preditos por cada Ferramenta

Genoma Tipo de Arquivo

antiSMASH

Local

versão 1.2

antiSMASH

Online

versão 3.0.2

NaPDos

Online

DoBISCUIT

Local

Synechocystis

sp. CACIAM

05

FASTA anotado

pelo RAST 3 23

Não houve

execução

Não houve

execução

GBK proveniente

do RAST 3 16 2 312

Cyanobium sp.

CACIAM 14

FASTA anotado

pelo RAST 15 35

Não houve

execução

Não houve

execução

GBK proveniente

do PGAP 15 24 1 275

Synechocystis

sp. PCC 6803

FASTA anotado

pelo PGAP 9 23

Não houve

execução

Não houve

execução

GBK proveniente

do PGAP 9 16 2 202

77

6. CONSIDERAÇÕES FINAIS

O crescente progresso no desenvolvimento de tecnologias moleculares e ferramentas

computacionais capazes de gerar e analisar dados genéticos em grande escala tem

revolucionado os estudos relacionados á genômica, possibilitando um grande avanço no

conhecimento acerca de genomas.

Nesse cenário, milhares de projetos de sequenciamento de genoma foram concluídos

ou ainda estão em andamento (SILVA, 2014). Para acompanhar esses projetos, se fez

necessário o desenvolvimento de ferramentas e técnicas que auxiliassem os pesquisadores nos

principais processos relacionados ao sequenciamento, análise e anotação de genomas,

permitindo um aumento na rapidez, quantidade e complexidade dos dados gerados,

proporcionando que a genética se tornasse uma ciência extremamente rica em dados. Dessa

forma, a limitação não se trata mais da geração dos genomas, mas da análise e a interpretação

dos mesmos.

A grande disponibilidade de dados oriundos de genomas trouxe novos desafios e

possibilidades. O número de genomas de cianobactérias sequenciados e analisados ainda

permanece baixo se comparado a outros filos. Contudo, o interesse por encontrar metabólitos

secundários nas cianobactérias vem crescendo, assim como a necessidade por ferramentas

eficazes e capazes de auxiliar no processo de detecção de possíveis produtos naturais. Um

grande desafio da pesquisa pós-genoma é explorar o complexo biológico de vias metabólicas

de um genoma, tal como sequências de DNA, sequências de proteínas e perfis de expressão

gênica (SILVA, 2014).

As ferramentas de predição de clusters gênicos tem uma parcela de responsabilidade

no que diz respeito á busca e análise por novos produtos naturais, que tem ocasionado em um

crescimento na descoberta de novos compostos. Entretando, muitas das previsões não são

consistentes se avaliadas por diferentes ferramentas de bioinformática. Logo, é recomendado

que haja uma variedade de ferramentas utilizadas na predição de metabólitos secundários para

aumentar a força de predição dos compostos (MICALEFF et al., 2014).

Logo, um dos principais objetivos desse trabalho foi realizar a análise dos resultados

gerados pelas ferramentas de predição de cluster gênico: antiSMASH; NP.searcher; NapDos e

doBiscuit, mediante a entrada de diversos tipos de arquivos biológicos, sendo alguns deles

anotados por ferramentas diferentes. Alcançando assim, o objetivo principal de realizar testes

com tais ferramentas e verificar seu desempenho na detecção de novos compostos,

explicitando a importância de um processo de validação e análise de desempenho das

78

ferramentas que predizem produtos naturais.

Um dos resultados deste trabalho foi comprovar que existem diferenças, às vezes

significativas, entre os resultados de diferentes ferramentas de predição de cluster gênico.

Sendo assim, todos os testes realizados nas ferramentas utilizando os genomas: Cyanobium

CACIAM 14, Synechocystis PCC6803 e no draft da Synechocystis CACIAM 05,

demonstraram que a integração entre as diferentes ferramentas de predição promove melhores

resultados, ou seja, mais acurados.

Outro ponto a ser destacado é que dependendo do tipo de entrada e ferramenta

utilizada, o tipo de arquivo utilizado influencia diretamente no número de clusters a serem

identificados, ajudando a desvender o potencial biotecnológico das informações contidas nos

arquivos.

Entre as ferramentas de predição utilizadas, o antiSMASH se destacou pelo fato de

possuir uma interface amigável na versão online, além de funções que mostravam genes de

outros organismos que eram parcialmente homólogos ao cluster encontrado na busca.

Também apresentou resultados mais completos, especialmente se alinhados ao algoritmo de

busca ClusterFinder e Pfam. A versão local apresentou, em geral, atividades e resultados

similares aos da versão online.

Os resultados da ferramenta NP.searcher foram os mais limitados, isso ocorreu devido

essas cianobactérias raramente possuírem módulos de PKS/NRPS, mesmo assim os seus

resultados devem ser considerados para promover com mais detalhes a descrição das funções

dos genes.

O NapDos também apresentou resultados limitados, mas possui funcionalidades

interessantes, como o fato de apresentar uma árvore com a estrutura do produto predito,

domínios de referência, resultados de buscas por Blast e domínios candidatos. Embora a

ferramenta NapDos tenha apresentado poucos resultados, pode ser descatado o fato dela ter

detectado domínios que essas cianobactérias não costumam apresentar.

O banco de dados da ferramenta doBiscuit é extremamente rico e possui um grande

potencial biotecnológico no que diz respeito a pesquisa por produtos em cianobactérias,

devido esse fator, essa ferramenta foi a que apresentou, no geral, mais resultados.

Em suma, o número de ferramentas de predição de cluster gênico e bancos de dados

de metabólitos secundários têm aumentado e a tendência é que surjam cada vez mais

ferramentas que auxiliem esse processo, pois as pesquisas in silico reduzem os custos

relacionados á pesquisas in vitro, ou seja, processos de predição realizados em laboratório.

79

Vale ressaltar também que o processo de predição com ferramentas deve estar alinhado a

análise manual para que os resultados sejam ainda mais satisfatórios.

6.1. TRABALHOS FUTUROS

Entre os trabalhos futuros planejados ao término desse trabalho estão:

A automatização dos processos relacionados a integração das melhores

ferramentas de predição.

Curadoria manual dos resultados gerados por todas as ferramentas de predição

de clusters gênicos pelo grupo de pesquisa do Laboratório de Tecnologia

Biomolecular da Universidade Federal do Pará.

Submissão de um artigo relacionado a esse trabalho na trilha e-Science do

XXXVI Congresso da Sociedade Brasileira de Computação CSBC - 2016.

80

REFERÊNCIAS

ABED, Raeid M. M.; DOBRETSOV, S; SUDESH, K. Applications of cyanobacteria in

biotechnology. J Appl Microbiol, [s .i. ], v. 106, n. 1, p.1-12, jan. 2009.

antiSMASH, 2015. Disponível em: < http://antismash.secondarymetabolites.org/>. Acessado

em 15 de abril de 2015.

BARACALDO, Patricia Sanchez; HAYES, P. K.; BLANK, Carrine E.. Morphological and

habitat evolution in the Cyanobacteria using a compartmentalization approach.Geobiology. [s

.i. ], p. 145-165. 19 dez. 2005.

BARBOSA, Eduardo Buzolin et al. Proteômica: Metodologias e aplicações no estudo de

doenças humanas. Revista da Associação Médica Brasileira, São José do Rio Preto, v. 58, n.

3, p.366-375, 20 jan. 2012.

BELL, Michael J.; COLLISON, Matthew; LORD, Phillip. Can Inferred Provenance and Its

Visualisation Be Used to Detect Erroneous Annotation? A Case Study Using

UniProtKB. Plos One, United Kigdom, v. 8, n. 10, p.1-2, 15 out. 2013.

BENSON, D. A. et al. GenBank. Nucleic Acids Research, [s.l.], v. 43, n. 1, p.30-35, 20 nov.

2014. Oxford University Press (OUP). DOI: 10.1093/nar/gku1216

BLIN, Kai et al. AntiSMASH 2.0—a versatile platform for genome mining of secondary

metabolite producers. Nucleic Acids Research. [s .i. ], p. 204-212. 1 jul. 2013

BLUNT., JW et al. Marine natural products. Natural Product Reports, [s. I.], v. 2, n. 1, p.237-

323, 2013.

BRANDÃO, H. N. et al. Química e farmacologia de quimioterápicos antineoplásicos

derivados de plantas. Quim. Nova, v. 33, n. 6, p. 1359-69, 2010.

BURJA, Adam M. et al. Marine cyanobacteria: A prolific source of natural

products. Tetrahedron. [s .i. ], p. 1-31. 1 nov. 2001.

CALTEAU, Alexandra et al. Phylum-wide comparative genomics unravel the diversity of

secondary metabolism in Cyanobacteria. Bcm Genomics, [s. I.], v. 15, n. 977, p.1-14, 18 nov.

2014.

CARNEIRO, Monalisa Sampaio; VIEIRA, Maria Lucia Carneiro. Mapas genéticos em

plantas. Bragantina, Piracicaba, v. 61, n. 2, p.89-100, maio 2002.

81

CIMERMANCIC, Peter et al. Insights into Secondary Metabolism from a Global Analysis of

Prokaryotic Biosynthetic Gene Clusters. Elsevier Inc. Edmonton, p. 412-421. 17 jul. 2014.

COUTO, Danielle Costa Carrara. IMPLEMENTAÇÃO DE UM BANCO DE DADOS

INTEGRADO DE GENÔMICA COMPARATIVA SOBRE CIANOBACTÉRIAS:

CYANOBR. 2014. 86 f. Tese (Doutorado) - Curso de Genética e Biologia Molecular,

Universidade Federal do Pará, Belém, 2014.

CLAVERIE, Jean-Michael; NOTREDAME, Cedric. Bioinformatics for Dummies. 2. ed.

Indianapolis: Wiley Publishing, 2007. 436 p.

DAHMS, Hans-uwe; YING, Xu; PFEIFFER, Cornelia. Antifouling potential of

cyanobacteria: A mini-review. Biofouling: The Journal of Bioadhesion and Biofilm

Research,[s .i. ], v. 22, n. 5, p.317-327, ago. 2006.

DoBISCUIT, 2015. Disponível em < http://www.bio.nite.go.jp/pks/>. Acessado em 15 de

Abril de 2015.

DUNCAN, Katherine R. et al. Molecular Networking and Pattern-Based Genome Mining

Improves Discovery of Biosynthetic Gene Clusters and their Products from Salinispora

Species. Chemistry & Biology, [s.i], v. 22, n. 4, p.460-471, 23 abr. 2015.

ENA. About the European Nucleotide Archive. Disponível em: <http://www.ebi.ac.uk/ena>.

Acesso em: 15 abr. 2015.

ESPÍNDOLA, Foued Salmen et al. RECURSOS DE BIOINFORMÁTICA APLICADOS ÀS

CIÊNCIAS ÔMICAS COMO GENÔMICA, TRANSCRIPTÔMICA, PROTEÔMICA,

INTERATÔMICA E METABOLÔMICA. Biosci. J, Uberlândia, v. 26, n. 3, p.463-477, jun.

2010.

ESPÍNDOLA, Luciana da Silveira. Pontifícia Universidade Católica do Rio Grande do Sul

Faculdade de Informática Pós-Graduação em Ciência da Computação Um Estudo sobre

Modelos Ocultos de Markov HMM - Hidden Markov Model. 2009. 29 f. Dissertação

(Mestrado) - Curso de Pós-graduação em Ciência da Computação, Pontifícia Universidade

Católica do Rio Grande do Sul, Porto Alegre, 2009.

FCBA, Universidade Federal da Grande Dourados -. Organismos Transgênicos. Disponível

em: <http://geneticavirtual.webnode.com.br/genetica-virtual-home/topicos-extras/organismos

transgênicos/>. Acessado em 5 de Maio de 2015.

82

FELÍCIO, Rafael de; OLIVEIRA, Ana Ligia Leandrini de; DEBONSI, Hosana Maria.

Bioprospecção a partir dos oceanos: Conectando a descoberta de novos fármacos aos produtos

naturais marinhos. Ciência e Cultura, São Paulo, v. 64, n. 3, p.39-42, 2012.

FINN, R. D. et al. The Pfam protein families database. Nucleic Acids Research, [s.l.], v. 36, n.

1, p.281-288, 23 dez. 2008. Oxford University Press (OUP). DOI: 10.1093/nar/gkm960

FINN, Robert D. et al. Pfam: The Protein Families Database. Nucleic Acids Research, [s.l.],

v. 42, n. 1, p.222-230, 27 nov. 2013. Oxford University Press (OUP). DOI:

10.1093/nar/gkt1223.

GUIZELINI, Dieval. BANCO DE DADOS BIOLÓGICO NO MODELO RELACIONAL

PARA MINERAÇÃO DE DADOS EM GENOMAS COMPLETOS DE PROCARIOTOS

DISPONIBILIZADOS PELO NCBI GENBANK. 2010. 149 f. Monografia (Especialização) -

Curso de Pós - Graduação em Bioinformática,, Universidade Federal do Paraná, Curitiba,

2010.

HUBBARD, T. Ensembl 2005. Nucleic Acids Research, [s. i.], v. 33, n. 1, p.447-453, jan.

2005.

HUNTER, Sarah et al. InterPro: The integrative protein signature database. Nucleic Acids

Research, [s. i.], v. 37, n. 1, p.211-215, jan. 2009.

ICHIKAWA, Natsuko et al. DoBISCUIT: a database of secondary metabolite biosynthetic

gene clusters. Nucleic Acids Research, [s .i. ], v. 10, n. 4, p.408-414, jan. 2013.

KANEHISA, Minoru et al. KEGG for linking genomes to life and the environment. Nucleic

Acids Research, [s. i.], v. 36, n. 1, p.480-484, jan. 2008.

KANEHISA, Minoru; GOTO, Susumu. KEGG: Kyoto Encyclopedia of Genes and

Genomes. Nucleic Acids Research, [s. i.], v. 28, n. 1, p.27-30, jan. 2000.

KINGHORN, A. Douglas et al. The Relevance of Higher Plants in Lead Compound

Discovery Programs. Journal Of Natural Products, [s. i.], v. 74, n. 6, p.1539-1555, jun. 2012.

KINGSTON, David G. I.. Modern Natural Products Drug Discovery and Its Relevance to

Biodiversity Conservation. J. Nat. Prod., [s.l.], v. 74, n. 3, p.496-511, 25 mar. 2011. American

Chemical Society (ACS). DOI: 10.1021/np100550t.

KLUG, William S.; CUMMINGS, Michael R.; SPENCER, Charlotte A.; PALLADINO,

Michael A.;. Conceitos de Genética. 9. ed. Brasil: Artmed, 2010. 896 p.

83

LEITE, Washington Luís Oliveira; OLIVEIRA FILHO, Abrahão Alves de. AVALIAÇÃO

FARMACOLÓGICA DE PRODUTOS NATURAIS NO COMBATE AO CÂNCER. Revista

Interdisciplinar em Saúde, Cajazeiras, v. 2, n. 1, p.192-211, dez. 2014

LESK, Arthur M. Introdução a Bioinformática. 2. ed. Porto Alegre: Artmed, 2008. 384 p.

LEWIS, Suzanna; ASHBURNER, Michael; REESE, Martin G. Annotating eukaryote

genomes. Elsevier Science. [s .I. ], p. 349-354. 2000.

LI, Michael Ht et al. Automated genome mining for natural products. BCM Bioinformatics,

[s. I.], v. 10, 16 jun. 2009; 10:185. doi:10.1186/1471-2105-10-185.

LIMA, Alex Ranieri Jerônimo et al. Draft Genome Sequence of the Brazilian Cyanobium sp.

Strain CACIAM 14. Pcm, Belém, v. 2, n. 4, p.1-2, ago. 2014. Disponível em:

<http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4110760/pdf/e00669-14.pdf>. Acesso em:

12 set. 2015.

LIMA, Alex Ranieri Jerônimo. POTENCIAL BIOTECNOLÓGICO DE

CIANOBACTÉRIAS AMAZÔNICAS NA PRODUÇÃO DE HIDROCARBONETOS – DA

MONTAGEM DE GENOMAS A MODELAGEM MOLECULAR COMPARATIVA. 2015.

77 f. Dissertação (Mestrado) - Curso de Genética e Biologia Molecular, Universidade Federal

do Pará, Belém, 2015.

LOTUFO, Letícia Veras Costa et al. A Contribuição dos Produtos Naturais como Fonte de

Novos Fármacos Anticâncer: Estudos no Laboratório Nacional de Oncologia Experimental da

Universidade Federal do Ceará. Rvq: Revista Virtual de Química, [s. i.], v. 2, n. 1, p.47-58, 30

out. 2010.

MACHADO, Henrique et al. Genome mining reveals unlocked bioactive potential of marine

Gram-negative bacteria. BMC Genomics, [s. I. ], v. 158, n. 16, p.1-12, 2015.

METALIFE. NCBI GenPept. Disponível em: <http://www.metalife.com/GenPept>. Acessado

em 16 de Abril de 2015.

MICALLEF, Melinda L. et al. Exploring cyanobacterial genomes for natural product

biosynthesis pathways. Elsevier. [s. I. ], p. 1-12. 23 nov. 2014.

MICALLEF, Melinda L. et al. Genome mining for natural product biosynthetic gene clusters

in the Subsection V cyanobacteria. Bmc Genomics, [s.I.], v. 16, n. 1, p.1-20, 3 set. 2015.

Springer Science + Business Media. DOI: 10.1186/s12864-015-1855-z.

84

Ministério do Meio Ambiente (MMA). Quarto Relatório Nacional para a Convenção Sobre

Diversidade Biológica. Brasília, 2011. Disponível em

<http://www.mma.gov.br/estruturas/sbf2008_dcbio/_arquivos/quarto_relatorio_147.pdf >

Acessado em 14 de Abril de 2015.

MIZRACHI, Eshchar et al. De novo assembled expressed gene catalog of a fast-growing

Eucalyptus tree produced by Illumina mRNA-Seq. BMC Genomics, [s. I.], v. 11, 1 dez. 2010.

MULDER, N. J. et al. New developments in the InterPro database. Nucleic Acids Research,

[s. I.], v. 35, n. 1, p.224-228, jan. 2007.

NaPDoS, 2015. Disponível em < http://napdos.ucsd.edu >. Acessado em 15 de Abril de 2015.

NP.searcher, 2015. Disponível em < http://dna.sherman.lsi.umich.edu/ >. Acessado em 02 de

Maio de 2015.

OGASAWARA, Yasushi et al. Expanding our Understanding of Sequence-Function

Relationships of Type II Polyketide Biosynthetic Gene Clusters: Bioinformatics-Guided

Identification of Frankiamicin A from Frankia sp. EAN1pec. Plos One, [s.l.], v. 10, n. 4, p.1-

45, 2 abr. 2015. Public Library of Science (PLoS). DOI: 10.1371/journal.pone.0121505.

OLIVEIRA, L. G. et al. Explorando Produtos Naturais Microbianos Nas Fronteiras Da

Química E Da Biologia. Quim. Nova, v. 36, n. 10, p. 1577-86, 2013.

OWEN, J. G. et al. A functional screen for recovery of 4′-phosphopantetheinyl transferase and

associated natural product biosynthesis genes from metagenome libraries. Environmental

Microbiology, [s.l.], v. 14, n. 5, p.1198-1209, 22 fev. 2012. Wiley-Blackwell. DOI:

10.1111/j.1462-2920.2012.02699.x.

PEIXOTO, Bruno Malveira. Bioinformática aplicada a um projeto de metagenômica. 2011.

20 f. Dissertação (Mestrado) - Curso de Bioinformática, Unicamp, São Paulo, 2011.

PRUITT, Kim D. et al. NCBI Reference Sequences (RefSeq): Current status, new features

and genome annotation policy. Nucleic Acids Research, [s. I.], v. 40, n. 1, p.130-135, jan.

2012.

QUIMIOTERAPIA Antineoplásica. Disponível em:

<http://www.centron.com.br/servicos/tratamentos/quimioterapia-antineoplasica>. Acessado

em 27 de Julho de 2015.

85

SCHUCH, Viviane. Construção de biblioteca metagenômica para prospecção de genes

envolvidos na biossíntese de antibióticos. 2007. 65 f. Tese (Doutorado) - Curso de

Microbiologia, Unesp, Jaboticabal, 2007.

SILVA, Waldeyr Mendes Cordeiro da. Método para reconstrução in silico de redes

metabólicas de fungos: um estudo de caso para o Paracoccidioides lutzii. 2014. 58 f. Tese

(Doutorado) - Curso de Mestrado em Informática, Universidade de Brasília, Brasília, 2014.

TANENBAUM, A. S. & WOODHULL, A. S. Sistemas operacionais: Projeto e

Implementação. 2. ed. trad. Edson Furmankiewicz. Porto Alegre: Bookman, 2000.

TATENO, Y. et al. The DNA Data Bank of Japan launches a new resource, the DDBJ Omics

Archive of functional genomics experiments. Nucleic Acids Research, [s. i.], p.27-30, jan.

2012.

TOLEDO-ARANA, Alejandro; SOLANO, Cristina. Deciphering the physiological blueprint

of a bacterial cell: revelations of unanticipated complexity in transcriptome and

proteome. Bioessays, [s. i.], v. 32, n. 9, p.461-467, jun. 2010.

UNESP, 2015. Disponível em<http://unesp.br/prope/mostra_arq_multi.php?arquivo=6693 >.

Acessado em 14 de Abril de 2015.

UNIPROT, 2015. Disponível em: <http://www.uniprot.org/>. Acessado em 17 de Maio de

2015.

VEAS, Esteban Mauricio Cordero. Modificações pós-traducionais (PTMs) da glicoproteína

de superfície gp82, a principal adesina das formas metacíclicas de Trypanosoma cruzi. Bv-cdi

Fapesp, [s. i. ] , out. 2013. Http://www.bv.fapesp.br/7583.

VERLI, Hugo. Bioinformática da Biologia à flexibilidade. Porto Alegre: Independente, 2014.

282 p.

VIEGAS JUNIOR, Cláudio; BOLSANI, Vanderlan da Silva. OS PRODUTOS NATURAIS E

A QUÍMICA MEDICINAL MODERNA. Quim. Nova, Rio de Janeiro, v. 29, n. 2, p.326-337,

20 jan. 2006.

WANG, Hao; FEWER, David P.; SIVONEN, Kaarina. Genome Mining Demonstrates the

Widespread Occurrence of Gene Clusters Encoding Bacteriocins in Cyanobacteria.Plos

One. [s .i. ], p. 1-10. 20 jul. 2011.

86

WATSON, James D. et al. DNA Recombinante: Genes e genomas. 3. ed. [s. i.]: Artmed,

2009. 474 p. Tradução: Elio Hideo Babá et al.

YADAV, Gitanjali; GOKHALE, Rajesh S; MOHANTY, Debasisa. Computational Approach

for Prediction of Domain Organization and Substrate Specificity of Modular Polyketide

Synthases. Jornal Molecular Biology, [s .i. ], v. 328, n. 2, p.335-363, 25 abr. 2003.

ZDOBNOV, Evgeni M. et al. The EBI SRS server-recent developments. Bioinformatics, [s.

I.], v. 18, n. 2, p.368-373, fev. 2002.

ZIEMERT, Nadine et al. The Natural Product Domain Seeker NaPDoS: A Phylogeny Based

Bioinformatic Tool to Classify Secondary Metabolite Gene Diversity. Plos One, [s. I.], v. 7, n.

3, p.1-9, 29 mar. 2012.

87

Anexo A: Resultado da Execução doBiscuit Local com a cianobactéria

Synechocystis sp. CACIAM O5

88

Anexo B: Resultado da Execução doBiscuit Local com a cianobactéria

Cyanobium sp. CACIAM 14

89

90

91

92

93

94

95

96

Anexo C: Resultado da Execução doBiscuit Local com a cianobactéria

Synechocystis sp. PCC 6803

97

98

99

100

101

102

Apêndice I: Manual de Instalação e Utilização do antiSMASH Local 1.2

Download e Instalação

OBS: Esse manual irá exemplificar o download do script para o sistema operacional

Linux.

Passo 1

Primeiramente é necessário realizar o download do script da ferramenta antiSMASH

no site http://antismash.secondarymetabolites.org/download.html , como pode ser

observado na figura abaixo:

Ao clicar no local indicado na figura acima, uma tela de confirmação do download do

script do AntiSMASH irá aparecer, clique no local indicado na figura abaixo para

realizar o download.

103

Passo 2

Após o download, entrar na pasta que contém o arquivo install_ubuntu.sh e verificar

se o mesmo foi baixado corretamente.

Logo após, entrar através do terminal na pasta onde o arquivo está localizado por

meio do comando cd / , digitar no terminal o comando apresentado abaixo:

Após a finalização da instalação do AntiSMASH, uma mensagem aparecerá no

terminal, constando que a instalação do AntiSMASH e suas dependências foram

realizadas com sucesso.

Execução do AntiSMASH

OBS: Esse manual irá apresentar um exemplo de execução para o sistema

operacional Linux.

Passo 1

Após a instalação do AntiSMASH, uma pasta contendo os arquivos do programa será

gerada no local onde a instalação do mesmo foi realizada.

$ sudo bash install_ubuntu.sh

104

A figura abaixo mostra os comandos existentes dentro do arquivo run_antismash.

Copiar os comandos para que sejam executados no terminal linux.

Os comandos tem que ser executados separadamente pelo terminal, como mostrados

nas caixas abaixo, representando o primeiro e segundo comando a serem executados,

respectivamente:

e

Passo 2Após a execução desses comandos, o antiSMASH local já estará apto para

processar a entrada de arquivos .gb , .fasta , entre outros.

Para executar uma entrada no antiSMASH local é necessário criar duas pastas dentro

da pasta de arquivos do antiSMASH, a primeira deve conter o arquivo gbk / fasta

que será executado e a segunda pasta a ser criada irá conter os resultados dessa

execução.

Nesse tutorial, as pastas criadas foram ―entradas_antismash‖ e ―saidas_antismash‖.

Para melhor organizar os resultados, foram criadas duas subpastas que continham os

nomes dos genomas que seriam executados pela ferramenta. A pasta ―cyanobium_14‖

foi criada dentro da pasta ―entradas_antismash‖ e a pasta ―cyanobium_14_saida‖ foi

criada dentro da pasta ―saidas_antismash‖.

OBS: É elementar não esquecer de colocar o arquivo (.gb) dentro da subpasta

correspondente a entrada do arquivo. No exemplo desse tutorial seria dentro da

subpasta “cyanobium_14” que fica dentro da pasta “entradas_antismash”.

$ source /caminho_do_antismash/antismash/sandbox/bin/aticvate

$ /caminho_do_antismash/antismash/run_antismash.py $*

105

Passo 3

Após as preparações exemplificadas no Passo 2 desse tutorial, é necessário digitar o

seguinte comando no terminal linux para que a execução ocorra. Como mostrado

abaixo:

Depois que a execução for finalizada, os resultados deveram aparecer como previsto

dentro da subpasta ―cyanobium_14_saida‖ que fica dentro da pasta

―saidas_antismash‖.

(sandbox)pc@pc: /caminho_do_antismash$ python run_antismash.py /caminho_do_antismash/antismash/entradas_antismash/cyanobium_14/arquivo.gb -c 4 --input-type nucl --clusterblast --subclusterblast --smcogs --inclusive --full-hmmer --full-blast --outputfolder /caminho_do_antismash/antismash/saídas_antismash/cyanobium_14_saida

106

Apêndice II: Manual de Instalação e Utilização do NP.searcher Local

Download e Instalação

Passo 1

Primeiramente é necessário realizar o download do script da ferramenta NP.searcher

no site http://dna.sherman.lsi.umich.edu/ , como mostrado na figura abaixo:

Ao clicar no local indicado na figura acima, uma tela de confirmação do download da

base do NP.searcher compactada irá aparecer. Clique no local indicado na figura

abaixo para realizar o download.

107

Passo 2

Compilando:

Para compilar em um ambiente terminal de Unix/Linux/Mac/Cygwin, faça o seguinte:

1. Descompacte o arquivo ―npsearcher.tar.gz‖ em um diretório.

2. Digite "make" para compilar clusterFinder.exe, main, exe e arquivos associados.

Fornecer permissões para Blastall executáveis:

1. Digite o seguinte comando para fornecer permissões para o blastall executável:

ou

2. Se a execução for em um sistema mac, substitua o blastall atual por blastall-mac

renomeando "blastall" para "blastall-mac" .

chmod +x blastall

sudo chmod a+x blastall

108

Passo 3

A execução do programa:

Para realizar a execução, coloque o arquivo .fasta de DNA na pasta ―genomes‖, e

digite o seguinte comando:

O clusterFinder.exe chamará o main.exe para analisar cada cluster produto natural

descoberto.

A execução de genomas grandes pode demorar vários minutos ou mais, dependendo

da velocidade de processamento do computador.

Para analisar um único cluster de produto natural, alternativamente, coloque o seu

arquivo .fasta de DNA na pasta ―clusters‖ ao invés da pasta ―genomes‖, e chamar o

main.exe diretamente" clusters ":

Os resultados da corrida NP.searcher local estarão na pasta ―SMILES‖ e as sequências

de DNA correspondentes permanecerão na pasta ―clusters‖.

./clusterFinder.exe nome_do_arquivo

./main.exe nome_do_arquivo

109

Apêndice III: Manual de Instalação e Uso da Ferramenta DoBiscuit

Download e criação do Banco DoBiscuit Local

Passo 1

Para realizar o download da base de dados da ferramenta DoBiscuit, é necessário

acessar o link (http://www.bio.nite.go.jp/pks/) e clicar no local indicado (Data

Download) pela figura abaixo:

Após clicar no local indicado, a tela indicada pela figura abaixo aparecerá. Realize o

download de todos os arquivos (fasta e tgz) presentes da coluna Translation of

Coding Sequences, como indicado na figura abaixo.

110

OBS: É recomendado realizar o download dos arquivos e salvar em uma pasta

específica, para facilitar os procedimentos realizados posteriormente.

Passo 2

Após realizar o download e salvar na pasta, extrair os arquivos tgz e excluir os

compactados.

Retirar os arquivos extraídos de suas respectivas pastas e logo após excluir as pastas

que ficaram vazias.

No terminal Linux, entrar na pasta onde estão os arquivos referentes ao banco do

DoBiscuit, cuja extensão é .pep. O comando abaixo servirá de exemplo para essa

operação.

Criar um diretório para conter o banco blast do DoBiscuit:

Logo após, realizar a junção de todos os arquivos (.pep) baixados para a criação do

arquivo multifasta do DoBiscuit.

$ cd /var/www/Bioinformática/dobiscuit

$ mkdir blast_database

$ cat *.pep > dobiscuit_database.fasta

111

Depois de criar o arquivo multifasta, mover para o diretório blast_database

anteriormente criado.

Passo 3

Entrar no diretório blast_database.

OBS: Caso necessite de ajuda, o comando (formatdb - -help) pode ser utilizado.

Para efetivamente criar o banco de dados blast DoBiscuit, digitar o seguinte comando:

Logo após, o arquivo dobiscuit_database.fasta contendo o banco do DoBiscuit estará

disponível no diretório criado, no caso desse tutorial, está na pasta blast_database.

$ mv dobiscuit_database.fasta

$ cd blast_database

$ formatdb –t dobiscuit_database.fasta –p T –n

112

Apêndice IV: Manual de Instalação e Execução da Ferramenta Artemis

Obter e Instalar o Artemis

Passo 1

A versão mais atualizada do Artemis está sempre disponível a partir das páginas web

Artemis (http://www.sanger.ac.uk/science/tools/artemis).

Artemis pode ser executado em qualquer computador que tenha uma versão recente do

Java. Esta versão do Artemis requer Java 1.6 pelo menos.

Passo 2

Instruções de instalação para UNIX e GNU/Linux

Alterar o caminho do arquivo para o diretório no qual se deseja instalar a ferramenta

Artemis. Usaremos como exemplo o diretório (~/).

Descompactar o arquivo tar do Artemis_(compiled.tar.gz) baixado através do site. No

UNIX o comando utilizado para executar essa tarefa é:

Um diretório chamado ~/artemis será criado e irá conter todos os arquivos necessários

para a execução dessa ferramenta.

$ tar zxf artemis_compiled.tar.gz

113

Formatos de arquivo

O Artemis lê formatos de seqüência e de arquivo anotação comuns á bioinformática.

Como maiores conjuntos de dados tornam-se mais comum, é agora possível para

indexar alguns desses formatos (FASTA e GFF3) para acelerar e melhorar o

desempenho do Artemis. Logo essa ferramenta pode ler os seguintes formatos de

arquivo de seqüência e de anotação: EMBL; GenBank; GFF; FASTA; sequência

múltipla FASTA, entre outros.

Passo 3

Execução do Artemis em UNIX e GNU/Linux

No Unix e GNU/Linux a maneira mais fácil para executar o programa é executar o

script chamado arte no Artemis diretório de instalação, como este:

Se tudo correr bem, uma pequena janela com três menus será apresentada, como pode

ser observado na figura abaixo. Através dela é possível selecionar as opções que

melhor se adequem a busca desejada.

Na barra superior, em Options é importante selecionar o parametro que representa o

objeto de busca do arquivo que será analisado através dessa ferramenta. Nesse

exemplo, a opção 11 (Bacterial and Plant Plastid) foi selecionada, como mostrado na

figura abaixo:

$ artemis/arte

114

Alternativamente, você começar a Artemis pelo terminal, com o nome de um arquivo

de seqüência ou arquivo EMBL padrão do Artemis, por exemplo:

Caso possuir um arquivo de sequência e arquivos extras é possível ler todos em

formato de tabela, através do comando abaixo:

O arquivo c1215.blastn.tab é um exemplo de arquivo que é resultado de uma pesquisa

BLASTN contra EMBL e foi convertido para aplicar formato de tabela.

Caso o script arte não funcione, o comando abaixo pode ser utilizado como

alternativa:

$ artemis/arte artemis/etc/c1215.embl

$ artemis/arte artemis/etc/c1215.embl + artemis/etc/c1215.blastn.tab

$ artemis/art –help

$ cd /artemis java -mx500m -ms100m -classpath lib /biojava.jar: lib / jemAlign.jar: lib / j2ssh / j2sshcore.jar: lib / ibatis / ibatis-2.3.4.726.jar: lib / ibatis / log4j-1.2.14.jar: lib / ibatis / nodep-cglib-2.2.jar: lib / postgresql-8.4-701.jdbc3.jar: lib / picard.jar: lib / Picard / sam.jar: lib / batik / batik-awtutil.jar: lib / batik / batik-codec.jar: lib / batik / batik-dom.jar: lib / batik / batik-ext.jar: lib / batik / batiksvggen.jar: lib / batik / batik-util.jar: lib / batik / batik-xml.jar: lib / commons-lang-2.6.jar: lib / commonsnet-2.2.jar :. -Dartemis.environment = UNIX uk.ac.sanger.artemis.components.ArtemisMain