gene finding -...
TRANSCRIPT
GENE FINDINGEl problema de identificar genes en secuencias de DNA
Ricardo Graña MontesMòdul de Genòmica i Proteòmica
Curs 2009/2010
Necesidad de Gene Finding Algorithms
Rápida Acumulación de Secuencias Genómicas
Whole Genome
Sequencing Projects
2nd & 3rd GenerationSequencing Techniques
Missing Genes
Asociados a Enfermedades
Nodos “Huérfanos” de Interactómica,
Metabolómica, etc…
Fuente:
http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html
Última Actualización: 03/Feb/09
ENTREZ Genome Sequencing Projects
Organism Complete Draft assembly In Progress Total
Prokaryotes 750 564 490 1804
Archaea 68 6 25 99
Bacteria 683 558 465 1706
Eukaryotes 37 233 266 536
Animals 5 105 116 226
Mammals 2 37 42 81
Birds - 2 13 15
Fishes - 13 13 26
Insects 2 23 16 41
Flatworms - 2 3 5
Roundworms 1 13 11 25
Amphibians - 1 - 1
Reptiles - 1 - 1
Other animals - 15 21 36
Plants 6 18 76 100
Land plants 3 16 70 89
Green Algae 3 2 6 11
Fungi 17 79 35 131
Ascomycetes 15 61 25 101
Basidiomycetes 1 11 7 19
Other fungi 1 7 3 11
Protists 9 29 35 73
Apicomplexans 5 10 4 19
Kinetoplasts 3 2 3 8
Other protists 1 16 28 45
Total: 787 797 756 2340
Fuente: http://www.ncbi.nlm.nih.gov/genomes/static/gpstat.html Actualización: 01/Jun/10
Complete StructuralGene Annotation
(concepto adaptado de Brent, 2008)
Estructura Exon-Intron de los RNA producto del gen
Región Codificante (para los genes codificantes)
Factores que controlan la Transcripción actuando en Cis o en
Trans
Gene Finding
Protein-coding Genes
noncoding-RNA Genes
Elementos Reguladores
Gene Finding Approaches
Homology-based empleo de información experimental existente
Genes conocidos, cDNA, ESTs, etc…
Ab initio
Gene Signals
(elementos característicos de una estructura génica codificante)
Gene Content
(composición y patrones estadísticos de los sensores que
definen a genes de regiones codificantes)
ComparativeGenomics
comparación de la secuencia completa de un genoma “problema” respecto a un genoma
“informante” (búsqueda de regiones conservadas)
Implementación en un Modelo Probabilístico
Hidden Markov Models
Neural Networks
Conditional Random Fields
Dynamic Programing
Algorithm Training
Presentación de W.H. Majoros disponible en:
http://www.geneprediction.org/book/classroom.html
Gene Content
I. Korf, 2004
Start Codon Donor Splicing Site Aceptor Splicing Site
At: Arabidopsis taliana, Ce: Caernohabtidis elegans,
Dm: Drosophila melanogaster, Os: Oryza sativa
Los algoritmos suelen ser entrenados en los
parámetros de un determinado genoma para
incrementar su precisión.
Esto conlleva una “especificidad” para cada
algoritmo que da lugar mejores resultados para el
genoma “informante” respecto a otros genomas.
Modelos Probabilísticos
Hidden Markov Models
Neural NetworksI. Korf, 2004
Presentación de W.H. Majoros disponible en:
http://www.geneprediction.org/book/classroom.html
D.W. Mount, 2001
Capa de Entrada: clasificación
de las señales de la sequencia
problema.
Capa(s) Oculta(s): funciones
de valoración del “contenido”
de la secuencia para cada
señal.
Capa de Salida: puntuación de
probabilidad para el modelo.
Comparative Genomics
Presentación de S. Rogic disponible en:
http://www.cs.ubc.ca/~rogic/GeneFinding.ppt
Se basan en el principio de que los
elementos fucionales del genoma se
encuentran más conservados que otras
regiones.
A diferencia de los métodos basados en
homología, no se limitan al estudio de
las regiones codificantes sino que
permiten implementar en la búsqueda
características de las regiones que “no
se buscan”.
Aproximaciones Combinadas
Imágenes: Presentación de W.H. Majoros disponible en:
http://www.geneprediction.org/book/classroom.html
Gene Findingen Procariotas
Genoma
Procariota
Pequeño Tamaño: 0.5 – 10Mbp
Elevada Densidad Génica: ≥90% regiones codificantes
Secuencias Repetitivas poco abundantes
ORF Único y Continuo (genralmente ausencia de intrones)
Signal Content
RBS (secuencia Shine-Delgarno) secuencia rica en Pu, complementaria a 16S rRNA
Codón Start ATG, (GTG, TTG)
Uso de Codón dependiente de la especie
Tercera Posición del Codón preferencia por un nucleótido específico (G,C)
Frecuencia k-mers dependiente de la especie
Codón Stop TGA, TAA, TAG
J. Xiong, 2006
Gene Finding en Procariotas
Cribaje de ORFs
Tendencia de la
3ª Posición del Codón
(TESTCODE)
Frecuencia de k-mers
-generalmente hexámeros-
(IHMM)
J. Xiong, 2006
D.W. Mount, 2001
Sin embargo, parte de los ORFs corresponderán a
genes verdaderos mientras otros serán espúreos.
Por otra parte, genes con ORFs cortos y genes de
ncRNA se verán subrepresentados.
Los genomas procariotas
permiten identificar genes con
cierta facilidad empleando el
análisis de ORFs.
Gene Findingen Eucariotas
Genoma
Eucariota
Gran Genoma (Nuclear): 10Mbp – 670Gbp
Densidad Génica Muy Baja: <3% en H. sapiens
Regiones Intergénicas Ricas en
Secuencias Repetitivas y Elementos Transponibles
Organización Exón-Intrón Generalizada
(pocos genes con exón único)
Presentación de S. Rogic disponible en:
http://www.cs.ubc.ca/~rogic/GeneFinding.ppt
Signal Content
Transcriptional Startregiones circundantes a Codón Start
(CpG islands)
Codón StartATG, regiones circundantes
(secuencia Kozak: CCGCCATGG)
Uso de Codón dependiente de la especie
Tercera Posición del Codónpreferencia por un nucleótido específico
(G,C)
Frecuencia k-mers dependiente de la especie
5' Splice Junction GT(AAGT)
3' Splice Junction (Py)12NCAG
Codón Stop TGA, TAA, TAG
Señal Poly-A CAATAA(T/C)
GENSCAN
Presentación de S. Rogic disponible en:
http://www.cs.ubc.ca/~rogic/GeneFinding.ppt
Burge & Karlin (1997)
Generalized HMM:
permite modelar la distribución
de la longitud de los exones.
Emplea matrices y algoritmos
de puntuación para valorar
Aceptor Splicing Site, Branch
Point, Señal Poly-A y región
Promotora; árboles de decisión
para Aceptor Splicing Site.
Utilizado en los proyectos
ENCODE, EGASP, Drosophila
GASP e Intenational Rice
Genome Sequencing Project.
Project Description
mGene GHMM / SVM eukaryotic gene finder
SNAP GHMM eukaryotic gene finder
GeneZilla GHMM eukaryotic gene finder
GlimmerHMM GHMM eukaryotic gene finder
TWINSCAN GHMM informant method for comparative gene finding
ChemGenome prokaryotic, ab initio gene finder based on physico-chemical properties
TWAIN GPHMM comparative gene finder
ExoniPhy Phylogenetic HMM gene finder
JIGSAW Evidence combiner for eukaryotic gene prediction
GenomeThreader Similarity-based gene prediction program where additional cDNA / EST and/or protein sequences are used to predict gene structures via spliced alignments.
ExonHunter Integrative gene finding system
GlimmerM Eukaryotic gene finder using OC1 decision trees and Interpolated Markov Models.
Glimmer Prokaryotic gene finder using Interpolated Markov Models
CRITICA Comparative prokaryotic gene finder
SGP2 Comparative gene finder based on geneid and TBLASTX
Phat GHMM gene finder
geneid Hierarchically-structured gene prediction program
EuGene An open gene finder for eukaryotic organisms
GENSCAN GHMM-based gene finder for human
AUGUSTUS GHMM-based gene finder for eukaryotes
MORGAN A eukaryotic gene finder using OC1 decision trees (no longer supported)
GenomeScan GHMM informant-based gene finder
DoubleScan Pair HMM gene finder
HMMgene HMM gene finder
GrailEXP Neural-network-based gene finder (Oak Ridge Natl. Lab.)
Genie GHMM-based gene finder
GeneMarkTM a gene finder from Georgia Institute of Technology
FGENESH GHMM gene finder
Lista de Proyectos
Fuente: http://geneprediction.org/software.html
más proyectos listados en:
http://www.nslij-genetics.org/gene/programs.html
Precisión delas Predicciones
P. Flicek, 2007
3 Niveles
Secuencia Nucleotídica
Exón
Gen
El conjunto “evaluador
ha de ser diferente del
conjunto empleado en
el entrenamiento del
algoritmo.
Presentación de R. Guigó disponible en:
http://bioinformatica.upf.edu/T15/Evaluation.html
Bibliografía
Brent, M.R. Nature Reviews Genetics 9, pp. 62 - 73 (2008)
Flicek, P. Genome Biology 8(12), art. 233 (2007)
Do, J.H. & Choi, D.-K. The Journal of Microbiology 44(2),
pp. 137 - 144 (2006)
Xiong, J.: Essential Bioinformatics. Cambridge University Press,
New York (2006)
Korf, I. BMC Bioinformatics 5(59), (2004)
Baxevanis, A.D. & Ouelette, B.F.F. (editors): Bioinformatics.
A Practical Guide to the Analysis of Genes and Proteins 2nd ed.
John Wiley & Sons, Inc., USA (2001)
Mount, D.W.: Bioinformatics. Sequence and Genome Analysis.
Cold Spring Harbor Laboratory Press, Cold Spring Harbor (2001)