gene finding -...

16
GENE FINDING El problema de identificar genes en secuencias de DNA Ricardo Graña Montes Mòdul de Genòmica i Proteòmica Curs 2009/2010

Upload: ngotram

Post on 08-Apr-2019

223 views

Category:

Documents


0 download

TRANSCRIPT

GENE FINDINGEl problema de identificar genes en secuencias de DNA

Ricardo Graña MontesMòdul de Genòmica i Proteòmica

Curs 2009/2010

Necesidad de Gene Finding Algorithms

Rápida Acumulación de Secuencias Genómicas

Whole Genome

Sequencing Projects

2nd & 3rd GenerationSequencing Techniques

Missing Genes

Asociados a Enfermedades

Nodos “Huérfanos” de Interactómica,

Metabolómica, etc…

Fuente:

http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html

Última Actualización: 03/Feb/09

ENTREZ Genome Sequencing Projects

Organism Complete Draft assembly In Progress Total

Prokaryotes 750 564 490 1804

Archaea 68 6 25 99

Bacteria 683 558 465 1706

Eukaryotes 37 233 266 536

Animals 5 105 116 226

Mammals 2 37 42 81

Birds - 2 13 15

Fishes - 13 13 26

Insects 2 23 16 41

Flatworms - 2 3 5

Roundworms 1 13 11 25

Amphibians - 1 - 1

Reptiles - 1 - 1

Other animals - 15 21 36

Plants 6 18 76 100

Land plants 3 16 70 89

Green Algae 3 2 6 11

Fungi 17 79 35 131

Ascomycetes 15 61 25 101

Basidiomycetes 1 11 7 19

Other fungi 1 7 3 11

Protists 9 29 35 73

Apicomplexans 5 10 4 19

Kinetoplasts 3 2 3 8

Other protists 1 16 28 45

Total: 787 797 756 2340

Fuente: http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html Actualización: 01/Jun/10

Complete StructuralGene Annotation

(concepto adaptado de Brent, 2008)

Estructura Exon-Intron de los RNA producto del gen

Región Codificante (para los genes codificantes)

Factores que controlan la Transcripción actuando en Cis o en

Trans

Gene Finding

Protein-coding Genes

noncoding-RNA Genes

Elementos Reguladores

Gene Finding Approaches

Homology-based empleo de información experimental existente

Genes conocidos, cDNA, ESTs, etc…

Ab initio

Gene Signals

(elementos característicos de una estructura génica codificante)

Gene Content

(composición y patrones estadísticos de los sensores que

definen a genes de regiones codificantes)

ComparativeGenomics

comparación de la secuencia completa de un genoma “problema” respecto a un genoma

“informante” (búsqueda de regiones conservadas)

Implementación en un Modelo Probabilístico

Hidden Markov Models

Neural Networks

Conditional Random Fields

Dynamic Programing

Algorithm Training

Presentación de W.H. Majoros disponible en:

http://www.geneprediction.org/book/classroom.html

Gene Content

I. Korf, 2004

Start Codon Donor Splicing Site Aceptor Splicing Site

At: Arabidopsis taliana, Ce: Caernohabtidis elegans,

Dm: Drosophila melanogaster, Os: Oryza sativa

Los algoritmos suelen ser entrenados en los

parámetros de un determinado genoma para

incrementar su precisión.

Esto conlleva una “especificidad” para cada

algoritmo que da lugar mejores resultados para el

genoma “informante” respecto a otros genomas.

Modelos Probabilísticos

Hidden Markov Models

Neural NetworksI. Korf, 2004

Presentación de W.H. Majoros disponible en:

http://www.geneprediction.org/book/classroom.html

D.W. Mount, 2001

Capa de Entrada: clasificación

de las señales de la sequencia

problema.

Capa(s) Oculta(s): funciones

de valoración del “contenido”

de la secuencia para cada

señal.

Capa de Salida: puntuación de

probabilidad para el modelo.

Comparative Genomics

Presentación de S. Rogic disponible en:

http://www.cs.ubc.ca/~rogic/GeneFinding.ppt

Se basan en el principio de que los

elementos fucionales del genoma se

encuentran más conservados que otras

regiones.

A diferencia de los métodos basados en

homología, no se limitan al estudio de

las regiones codificantes sino que

permiten implementar en la búsqueda

características de las regiones que “no

se buscan”.

Aproximaciones Combinadas

Imágenes: Presentación de W.H. Majoros disponible en:

http://www.geneprediction.org/book/classroom.html

Gene Findingen Procariotas

Genoma

Procariota

Pequeño Tamaño: 0.5 – 10Mbp

Elevada Densidad Génica: ≥90% regiones codificantes

Secuencias Repetitivas poco abundantes

ORF Único y Continuo (genralmente ausencia de intrones)

Signal Content

RBS (secuencia Shine-Delgarno) secuencia rica en Pu, complementaria a 16S rRNA

Codón Start ATG, (GTG, TTG)

Uso de Codón dependiente de la especie

Tercera Posición del Codón preferencia por un nucleótido específico (G,C)

Frecuencia k-mers dependiente de la especie

Codón Stop TGA, TAA, TAG

J. Xiong, 2006

Gene Finding en Procariotas

Cribaje de ORFs

Tendencia de la

3ª Posición del Codón

(TESTCODE)

Frecuencia de k-mers

-generalmente hexámeros-

(IHMM)

J. Xiong, 2006

D.W. Mount, 2001

Sin embargo, parte de los ORFs corresponderán a

genes verdaderos mientras otros serán espúreos.

Por otra parte, genes con ORFs cortos y genes de

ncRNA se verán subrepresentados.

Los genomas procariotas

permiten identificar genes con

cierta facilidad empleando el

análisis de ORFs.

Gene Findingen Eucariotas

Genoma

Eucariota

Gran Genoma (Nuclear): 10Mbp – 670Gbp

Densidad Génica Muy Baja: <3% en H. sapiens

Regiones Intergénicas Ricas en

Secuencias Repetitivas y Elementos Transponibles

Organización Exón-Intrón Generalizada

(pocos genes con exón único)

Presentación de S. Rogic disponible en:

http://www.cs.ubc.ca/~rogic/GeneFinding.ppt

Signal Content

Transcriptional Startregiones circundantes a Codón Start

(CpG islands)

Codón StartATG, regiones circundantes

(secuencia Kozak: CCGCCATGG)

Uso de Codón dependiente de la especie

Tercera Posición del Codónpreferencia por un nucleótido específico

(G,C)

Frecuencia k-mers dependiente de la especie

5' Splice Junction GT(AAGT)

3' Splice Junction (Py)12NCAG

Codón Stop TGA, TAA, TAG

Señal Poly-A CAATAA(T/C)

GENSCAN

Presentación de S. Rogic disponible en:

http://www.cs.ubc.ca/~rogic/GeneFinding.ppt

Burge & Karlin (1997)

Generalized HMM:

permite modelar la distribución

de la longitud de los exones.

Emplea matrices y algoritmos

de puntuación para valorar

Aceptor Splicing Site, Branch

Point, Señal Poly-A y región

Promotora; árboles de decisión

para Aceptor Splicing Site.

Utilizado en los proyectos

ENCODE, EGASP, Drosophila

GASP e Intenational Rice

Genome Sequencing Project.

Project Description

mGene GHMM / SVM eukaryotic gene finder

SNAP GHMM eukaryotic gene finder

GeneZilla GHMM eukaryotic gene finder

GlimmerHMM GHMM eukaryotic gene finder

TWINSCAN GHMM informant method for comparative gene finding

ChemGenome prokaryotic, ab initio gene finder based on physico-chemical properties

TWAIN GPHMM comparative gene finder

ExoniPhy Phylogenetic HMM gene finder

JIGSAW Evidence combiner for eukaryotic gene prediction

GenomeThreader Similarity-based gene prediction program where additional cDNA / EST and/or protein sequences are used to predict gene structures via spliced alignments.

ExonHunter Integrative gene finding system

GlimmerM Eukaryotic gene finder using OC1 decision trees and Interpolated Markov Models.

Glimmer Prokaryotic gene finder using Interpolated Markov Models

CRITICA Comparative prokaryotic gene finder

SGP2 Comparative gene finder based on geneid and TBLASTX

Phat GHMM gene finder

geneid Hierarchically-structured gene prediction program

EuGene An open gene finder for eukaryotic organisms

GENSCAN GHMM-based gene finder for human

AUGUSTUS GHMM-based gene finder for eukaryotes

MORGAN A eukaryotic gene finder using OC1 decision trees (no longer supported)

GenomeScan GHMM informant-based gene finder

DoubleScan Pair HMM gene finder

HMMgene HMM gene finder

GrailEXP Neural-network-based gene finder (Oak Ridge Natl. Lab.)

Genie GHMM-based gene finder

GeneMarkTM a gene finder from Georgia Institute of Technology

FGENESH GHMM gene finder

Lista de Proyectos

Fuente: http://geneprediction.org/software.html

más proyectos listados en:

http://www.nslij-genetics.org/gene/programs.html

Precisión delas Predicciones

P. Flicek, 2007

3 Niveles

Secuencia Nucleotídica

Exón

Gen

El conjunto “evaluador

ha de ser diferente del

conjunto empleado en

el entrenamiento del

algoritmo.

Presentación de R. Guigó disponible en:

http://bioinformatica.upf.edu/T15/Evaluation.html

Bibliografía

Brent, M.R. Nature Reviews Genetics 9, pp. 62 - 73 (2008)

Flicek, P. Genome Biology 8(12), art. 233 (2007)

Do, J.H. & Choi, D.-K. The Journal of Microbiology 44(2),

pp. 137 - 144 (2006)

Xiong, J.: Essential Bioinformatics. Cambridge University Press,

New York (2006)

Korf, I. BMC Bioinformatics 5(59), (2004)

Baxevanis, A.D. & Ouelette, B.F.F. (editors): Bioinformatics.

A Practical Guide to the Analysis of Genes and Proteins 2nd ed.

John Wiley & Sons, Inc., USA (2001)

Mount, D.W.: Bioinformatics. Sequence and Genome Analysis.

Cold Spring Harbor Laboratory Press, Cold Spring Harbor (2001)