universidad nacional de colombia instituto de...

1

Swiss Institute of BioinformaticsInstitut Suisse de Bioinformatique

LF-2002.10

EMILIANO BARRETO H.Profesor Asociado D.E

UNIVERSIDADUNIVERSIDAD NACIONALNACIONAL DE COLOMBIADE COLOMBIAINSTITUTO DE BIOTECNOLOGÍAINSTITUTO DE BIOTECNOLOGÍA

Centro de Bioinformática

SECUENCIAS ETIQUETADAS DE EXPRESIÓN

Expressed Sequence Tags (EST)


LF-2002.10

¿?

¿Identificación Genes?

DNA cromosomal ANALISIS

UNIVERSIDADUNIVERSIDAD NACIONALNACIONAL DE COLOMBIADE COLOMBIAINSTITUTO DE BIOTECNOLOGÍAINSTITUTO DE BIOTECNOLOGÍA

Centro de Bioinformática

SECUENCIAS ETIQUETADAS DE EXPRESIÓN

Expressed Sequence Tags (EST)

2


LF-2002.10

Secuencias Etiquetadas de Expresión (EST)

Qué son los ESTs?Problema de Calidad (única lectura)Limpieza (vector clipping, filtrado de contaminación, repeat masking)AgrupamientoEnsamblaje de contigsIndices de GenesBases de Datos


LF-2002.10

ESTs representan secuencias parciales de clones de cDNA (en promedio ~ 360 pb).Única lectura a partir de los extremos 5’ y/o 3’ de los clones de cDNA.

Secuencias Etiquetadas de Expresión (EST)

3


LF-2002.10

Cromatogramas


LF-2002.10

Interés de los ESTsESTs representan el examen disponible más extenso de la porción transcrita de los genomas. ESTs son imprescindibles para la predicción de la estructura del gen, el descubrimiento de genes y mapeo genómico. Caracterización de las variantes de splicing y de poliadenilación alternativa. Estudios de expresión génica y exhibición diferencial in silico(expresión específica en tejido, estado normal/enfermedad).Explotación (data mining) de los datos de SNP.Producción de datos con alto-rendimiento de procesamiento y en grandes cantidades y a bajo costo. Hay 16,626,752 de entradas de EST en GenBank (dbEST) (Mayo 9, 2003 ):

5,142,390 entradas de ESTs humano; 3,721,428 entradas del ratón ESTs;...

4


LF-2002.10

Baja Calidad de los Datos de ESTs

Altas tasas de error (~ 1/100) debido a la lectura de la secuencia una sola vez. Compresión de la secuencia y errores por cambios en el marco debido a la lectura de la secuencia una sola vez.Un EST representa solamente una secuencia parcial del gen.No es un producto gen/proteína definido.No esta curadoAlta redundancia en los datos - > número enorme de secuencias a analizar.


LF-2002.10

Mejoramiento de ESTs:Agrupamiento, ensamblaje e índices de genes

El valor de ESTs es realzado por agrupamiento (clustering) y ensamblaje(assembling).

Solucionar la redundancia puede ayudar a corregir errores;

Secuencias más grandes y mejor anotadas;Fácil asociación a los mRNAs y a las proteínas; pocas secuencias a analizar;Detección de las variantes del empalme;Menor número de secuencias para analizar;

Índices génicos: Todas las secuencias expresadas (como ESTs) porun único gen son agrupados en una sola clase del índice, y cada clase del índice contiene la información de un solo gen. Diversos procedimientos de agrupamiento y ensamblaje se han propuesto con las base de datos relacionadas (índices del gene):

UniGene (http://www.ncbi.nlm.nih.gov/UniGene) TIGR (http://www.tigr.org/tdb/tgi.shtml)TACK (http://www.sambi.ac.za/Dbases.html)

5


LF-2002.10

Agrupamiento de EST


LF-2002.10

Pre-procesamiento: Fuente de datosLas fuentes de datos para agrupar pueden ser bases de datos públicas internos, propietaria, o un híbrido de estas (cromatogramas y/o archivos de secuencia). Cada EST debe tener la información siguiente:

Una secuencia AC/ID (ex secuencia-funcione la identificación); Localización con respecto a la cola poliA (3’ or 5’); La identificación del CLON (CLONE ID )del cual se ha generado el ESTOrganismo;Tejido y/o condiciones;La secuencia.

El EST se puede almacenar en formato de FASTA :

>T27784 EST16067 Human Endothelialcells Homo sapiens cDNA 5’CCCCCGTCTCTTTAAAAATATATATATTTTAAATATACTTAAATATATATTTCTAATA

TCTTTAAATATATATATATATTTNAAAGACCAATTTATGGGAGANTTGCACACAGATGT

GAAATGAATGTAATCTAATAGANGCCTAATCAGCCCACCATGTTCTCCACTGAAAAATC

CTCTTTCTTTGGGGTTTTTCTTTCTTTCTTTTTTGATTTTGCACTGGACGGTGACGTCAG

CCATGTACAGGATCCACAGGGGTGGTGTCAAATGCTATTGAAATTNTGTTGAATTGTAT

ACTTTTTCACTTTTTGATAATTAACCATGTAAAAAATGAACGCTACTACTATAGTAGAATTG

AT

6


LF-2002.10

El proceso previo del EST consiste de varios pasos esenciales para reducir al mínimo la probabilidad de agrupar secuencias sin relación.

Extraer regiones de baja calidad:Lecturas de secuencias de baja calidad son propensas a error. Los programas como Phred (Ewig et al., 98) leen los cromatogramas (nombramiento de bases) y determinan un valor de calidad para cada nucleótido.

Extraer contaminaciones (tRNA, rRNA, mitoDNA). Extraer secuencias del vector (truncamiento del vector). Extraer secuencias repetidas (enmascaramiento de repeticiones).Extraer secuencias de baja complejidad.

El software especializado está disponible para estas tareas:RepeatMasker (Smit and Green, http://ftp.genome.washington.edu/RM/RepeatMasker.html);VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen);Lucy (Chou and Holmes, 01);...

Pre-procesamiento: Pasos Esenciales


LF-2002.10

Pre-procesamiento: Eliminación del vector

Eliminación del VectorLas secuencias del vector pueden sesgar el agrupamiento, incluso si hay pequeños fragmentos del vector en cada lectura.Eliminación de regiones 5’ y 3’ que corresponden al vector usado para elclonajeLa detección de secuencias del vector no es una tarea trivial, porque normalmente estan en regiones de baja calidad de la secuencia. UniVec -> base de datos no-redundante (NCBI) de vectores :

http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html

ContaminantesHallazgo y Eliminación:

ADN bacteriano, ADN de levadura, y otras contaminantes; Los programas de la alineamiento pareado estándar se utilizan para la detección del vector y de otros contaminantes (por ejemplo cross-match, BLASTN, FASTA). Son razonablemente rápidos y exactos.

7


LF-2002.10

Pre-procesamiento: Enmascaramiento de repeticiones

Algunos elementos repetitivos encontrados en el genoma humano:


LF-2002.10

Pre-procesamiento: Enmascaramiento de repeticiones

Elementos repetidos: Representan una gran parte del genoma de los mamíferosSe encuentran en muchos genomas (las plantas...) Inducen errores en el agrupamiento y ensamblaje.

Deben ser enmascarados, no eliminados, para evitar un falso ensamblaje.

de la secuencia .

...pero son también elementos interesantes para los estudios evolutivos..SSRs son importantes para busqueda de enfermedades. .

Herramientas para encontrar repeticiones :RepeatMasker se ha desarrollado para encontrar elementos repetitivos y secuencias de baja complejidad. Utiliza el programa cross-match para los alineamientos pareados

http://repeatmasker.genome.washington.edu/cgi-bin/RepeatMasker

MaskerAid mejora la velocidad de RepeatMasker ~ 30 veces usando WU-BLAST en vez cross-match

http://sapiens.wustl.edu/maskeraid

RepBase es una base de datos de secuencias típicas representantes del ADN repetido de diversas especies eucarióticas

http://www.girinst.org/Repbase Update.html

8


LF-2002.10

Pre-procesamiento: Regiones de Baja Complejidad

Las secuencias de baja complejidad tienen cierta tendencia en su composición nucleotídica (zonas polyA, repeticiones AT, etc.). Las regiones de baja complejidad disminuyen la calidad de los miembros del grupo.Las estrategias de agrupamiento que emplean alineación por semejanza en su primer paso, son muy sensibles a las secuencias de baja complejidad. Algunas estrategias de agrupamiento no son sensibles a secuencias de baja complejidad, porque clasifican las secuencias con base en su contenido de información (ej: d2-cluster).Programs as (NCBI) can be used to mask low complexity regions.Los programas como DUST (NCBI) se pueden utilizar para enmascarar regiones de baja complejidad.


LF-2002.10

Pre-procesamiento: Resumen

9


LF-2002.10

Agrupamiento de ESTLa meta del proceso de agrupamiento es incorporar en un solo grupo, ESTssobrelapados que se marcan como el mismo transcripto del mismo gen.Para el agrupamiento, se mide la semejanza (distancia) entre 2 secuencias. La distancia se reduce a un valor binario simple: acepta o rechaza dos secuencias en el mismo grupo. La semejanza se puede medir usando diversos algoritmos:

Algoritmos de alineamiento pareado:Smith-Waterman es el el más sensible, pero lento (ej: cross-match);Los algoritmos heurísticos como BLAST y FASTA sacrifican sensibilidad por rápidezara los de la velocidad

Métodos de puntaje no basados en alineamiento:Algoritmo de agrupamiento D2 : basado en la comparación y la composición de la palabra (identidad y multiplicidad de palabra) (burke et al., 99). No se realiza ningúnalineamiento -> rápido

Métodos de Pre-indexaciónMétodos de agrupamiento basados en alineamientos construidos a propósito.


LF-2002.10

Agrupamiento riguroso y débil

Agrupamiento riguroso:Mayor fidelidad inicial; Un pasoBaja cobertura de los datos del gen expresado;Baja inclusión en el grupo de las formas del gen expresado; Un consenso más corto.

Agrupamiento débil:Baja fidelidad inicial;Múltiples pasos;Mayor cobertura de los datos del gen expresadoMayor inclusión en el grupo de formas alternas expresadas Un consenso más grande;

Riesgo de incluir parálogos en el mismo índice del gene.

10


LF-2002.10

Agrupamiento Supervisado y nosupervisado de ESTAgrupamiento Supervisado

ESTs se clasifican con respecto a secuencias conocidas o “semillas” (mRNAs de longitudtotal, constructos de exones de secuencias genómicas, grupos consenso de ESTensamblados previamente).

Agrupamiento no supervisadoESTs se clasifican sin ningún conocimiento previo.

Los tres índices génicos principales utilizan diversos métodos de agrupamiento de EST:

El índice génico de TIGR utiliza un método de agrupamiento riguroso y supervisado, que genera secuencias consenso más cortas y separan variantes de splicing. STACK utiliza un método débil y no supervisado de agrupamiento, produciendo secuencias consenso más largas e incluyendo variantes de splicing en el mismo índice.Una combinación de métodos supervisados y no supervisados con niveles variables de rigor (astringencia) se utilizan en UniGene. No se produce ninguna secuencia consenso.


LF-2002.10

Ensamblaje y procesamiento

Un alineamiento múltiple para cada grupo se puede generar (ensamblaje) y para las secuencias consenso generadas (procesamiento). Varios programas están disponibles para el ensamblaje y procesamiento :

PHRAP (http://www.genome.washington.edu/UWGC/analysistools/Phrap.cfm);TIGR ASSEMBLER (Sutton et al., 95);CRAW (Burke et al., 98);...

El ensamblaje y procesamiento producen secuencias y singletons consenso (útiles para visualizar variantes desplicing).

11


LF-2002.10

Enasamblaje del ClusterTodo los ESTs generados de la misma copia de cDNA corresponden a un solo gene.La información original de la copia de la DNA está por lo general disponible (~ el 90%). Usando la información del clon de cDNA y de la lectura 5´- 3´, los grupos pueden ser ensamblados.


LF-2002.10

UnigeneUniGene Gene Indices available for a number of organisms.UniGene clusters are produced with a supervised procedure: ESTs are clustered usingGenBank CDSs and mRNAs data as ”seed” sequences.No attempt to produce contigs or consensus sequences.UniGene uses pairwise sequence comparison at various levels of stringency to group related sequences, placing closely related and alternatively spliced transcripts intoone cluster.UniGene web site: http://www.ncbi.nlm.nih.gov/UniGene.Índices de genes de UniGene están disponibles para varios organismos. Los grupos de UniGene se producen con un procedimiento supervisado: Los ESTs se agrupan usando CDSs del GenBank y datos de los mRNAs comosecuencias semilla. No se trata de producir contigs o secuencias consenso. UniGene utiliza comparación pareada de secuencias en varios niveles de astringencia para agrupar secuencias relacionadas, colocando lostranscriptos cercanamente relacionados y empalmados alternativamente en un mismo grupo. Sitio Web de UniGene: http://www.ncbi.nlm.nih.gov/UniGene.

12


LF-2002.10

Procedimiento con UnigeneBúsqueda de contaminantes, repeticiones y regiones de baja complejidad en el GenBank.

la Baja-complejidad se detecta usando Dust.Los contaminantes (secuencias bacterianas, mitocondriales, ribosomales, del vector, del linker) se detectan usando programas de alineamiento pareado. Enmascaramiento de regiones repetidas (RepeatMasker).Solamente las secuencias con por lo menos 100 bases informativas se aceptan

Procedimiento de agrupamiento. Construir de grupos de genes y mRNAs (GenBank). Agregar ESTs a los grupos anteriores (megablast). Desechar los ESTs que se unan a dos grupos de genes/mRNAs. Desechar cualquier grupo que resulte sin señal de poliadenilación o con por lo menos dos ESTs 3´. Los grupos resultantes llamados grupos anclados desde su extremo 3´, son supuestamente conocidos.


LF-2002.10

Asegurar los ESTs 5´ y 3´ del mismo clon de cDNA pertenecientesal mismo grupo.ESTs que no se han agrupado, se procesan de nuevo con un nivel inferior del astringencia. Los ESTs añadidos durante este paso sonllamados miembros huésped. Los grupos de tamaño 1 (contienen una sola secuencia) se comparan contra el resto de los grupos con un nivel inferior del astringencia y se combinan con el grupo que contiene la secuencia más similar. Para cada estructura de la base de datos, los IDs de grupo cambian si los grupos están partidos o combinados.

Procedimiento con Unigene (2)

13


LF-2002.10

Indice de Genes TIGRTIGR produce índices de genes para varios organismos (http://www.tigr.org/tdb/tgi). Se producen usando métodos estrictos de agrupamiento supervisado. Los grupos están ensamblados en secuencias consenso llamadas secuencias consensotentativas (TC), que representan los transcriptos subyacentes de mRNA.Los métodos de construcción de los índices de genes de TIGR agrupan firmemente secuencias altamente relacionadas y descartan las secuencias “ruidosas”,divergentes o poco representativas. Características de los índices de genes de TIGR:

Separa los genes relacionados cercanamente en secuencias consenso distintas;Separa las variantes de splicing en grupos separados;bajo nivel de contaminación;

TC sequences can be used for genome annotation, genome mapping, andidentification of orthologs/paralogs genes.Las secuencias TC se pueden utilizar para la anotación de genomas, mapeo de genomas, y la identificación de genes ortologos/paralogos


LF-2002.10

Producción de los Indices de Genes TIGR

Secuencias de EST recuperadas desde DbEST(http://www.ncbi.nlm.nih.gov/dbEST);

Las secuencias se ajustan para remover:Las secuencias de los vectores y del adaptadorColas polyA/T Secuencias bacterianas and adaptor sequences

Obtención de transcriptos expresados (ETs) desde EGAD (http://www.tigr.org/tdb/egad/egad.shtml):

EGAD (Expressed Gene Anatomy Database) se basa en el mRNA y CDS (secuencias codificantes) del GenBank.

Obtención de secuencias consenso y de singletons tentativos desde la base de datos constuida previamente.

14


LF-2002.10

Los TCs construidos son cargados en la base de datos de índices de genes de TIGR y se anotan usando la información del GenBank y/o de la homología de la proteína. Son conservados los IDs de los TC antiguos a través de un base de datos relacionalReferencias:

Quackenbush et al. (2000) Nucleic Acid Research,28, 141-145.Quackenbush et al. (2001) Nucleic Acid Research,29, 159-164.

Producción de los Indices de Genes TIGR


LF-2002.10

STACK The Sequence Tag Alignment and Consensus Knowledgebase

STACK esta especializado en datos humanosBasado en agrupamiento” débil” no supervisado, seguido porprocedimiento de ensamblaje estricto y de análisis para identificar y caracterizar la divergencia de las secuencias(splicing alternativo). El método de agrupamiento ”débil”, d2 cluster, no se basa en alineamientos, sino que realiza comparaciones de la composición y de multiplicidad de palabras dentro de cada secuencia.Debido al agrupamiento “débil”, STACK produce secuencias consenso más grandes que los índices de genes de TIGR. STACK también integra ~ 30% más secuencias que UniGene, debido a la aproximación de agrupamiento “débil”

15


LF-2002.10

Procedimiento con STACK

Sub-particionamiento.Seleccionar los ESTs humanos desde GenBank; Las secuencias se agrupan en categorías basadas en tejidos (“bin”). Esto permitirá la exploración adicional de la transcripción específica en el tejido. Un “bin” también se crea para las secuencias derivadas de tejidos relacionados con enfermedades human ESTs from GenBank;

Enmascaramiento.Enmascarar las repeticiones y los contaminantes usando cross-match:

Secuencias humanas repetidas (RepBase);Secuencias del vector;ADN mitocondrial y Ribosomal, otros contaminantes


LF-2002.10

Agrupamiento “débil” usando el grupo d2El algoritmo busca la co-ocurrencia de las palabras con n-longitud (n = 6) en una ventana con tamaño de 150 bases que tienen por lo menos una identidad del 96%. Las secuencias con menos de 50 bases se excluyen del proceso de agrupamiento.Secuencias altamente relacionadas se agrupan.Agrupar también secuencias relacionadas por cambios en el orden o por splicingalternativo. Dado que el grupo d2 considera las secuencias según su contenido de información, no es requerido el enmascaramiento de regiones de baja complejidad.

Ensamblaje.El paso de ensamlaje se realiza usando Phrap. STACK no usa la información de calidad disponible desde los cromatogramas (pero si en la nueva versión 2,2 de stackPACK)La carencia de la información de rastreo es compensada en gran parte por la redundancia de los datos de ESTs. Las secuencias que no se pueden alinear con Phrap se extraen de los grupos(singletons) y se procesan más adelante.

Procedimiento con STACK (2)

16


LF-2002.10

Análisis del alineamiento.El programa CRAW se utiliza en la primera parte del análisis de alineamiento .CRAW genera secuencias consenso maximizando la longitud. CRAW reparte un grupo en sub-conjuntos si > del 50% de una ventana de 100 bases se diferencia del resto de las secuencias del grupo.Alinea los sub-conjuntos según el número de secuencias asignadas y el número de las bases nombradas para cada sub-conjunto (CONTIGPROC). Anota las regiones polimórficas y de splicing alternativo.

Ligamiento.Ensambla los grupos que contienen ESTs con el ID del clon compartido. Agrega los singletons producidos por Phrap basado en ID del clon.



LF-2002.10

Actualización de STACK.Los nuevos ESTs se buscan contra las secuencias consenso y singletonsexistentes usando cross-match. Las secuencias que aparean se agregan para ampliar grupos existentes y consenso. Las secuencias que No aparean se procesan usando el grupo d2 contra la base de datos completa y el nuevo grupo producido es renombrado (cambio del IDdel índice de Genes).

Salida de STACKConsenso primario para cada grupo en formato FASTA .Alineamientos desde Phrap en formato GDE (Genetic Data Environment).Variaciones y consensos secundario de la secuencia (desde el procesamiento de CRAW).

ReferenciasMiller et al. (1999) Genome Research,9, 1143-1155.Christoffels et al. (2001) Nucleic Acid Research,29, 234-238.http://www.sanbi.ac.za/Dbases.html


17


LF-2002.10

trEST (Ver también trGEN / tromer)

trEST trata de producir contigs a partir de grupos de ESTs y traducirlos en proteínastrEST usa grupos de UniGene y grupos producidos apartir de software internoPara ensamblar los grupos, trEST usa algoritmos de Phrap y CAP3. Contigs producidos por el paso de ensamblaje se traducen en secuencias de proteína usando el programa de ESTscan, que corrige la mayoría de errores por cambio en el marco y predice transcripciones con errores en la posición de unos pocos aminoácidos. Acceso a trEST por medio de la base de datos HITS (http://hits.isb-sib.ch).


LF-2002.10

Procedimiento de agrupamientocon EST

18


LF-2002.10

Mapeo de EST en genomassim4 es un algoritmo que rastrea ESTs, cDNAs, mRNAs en secuencias genómicas (http://pbil.univ-lyon1.fr/sim4.html)El algoritmo de sim4 encuentra bloques que representan el “núcleo del exon".)El algoritmo usado por sim4 es similar al algoritmo de BLAST:

Determina los pares de segmento con altopuntaje(HSPs).Regiones sin gaps que tienen alto puntaje.Selecciona apareamientos exactos de longitud 12.Extend matches in both directions with a score of 1 for a match and -5 for a mismatch until no increase of the score. Extiende los apareamientos en ambas direcciones con una puntaje de 1 para un apareamiento y -5 para un mal apareamiento hasta que no haya ningún aumento del puntaje.

Selecciona los HSPs que podrían representar un gene.Usa un algoritmo de programación dinámica para encontrar una cadena de HSPs con las siguientes características:

1. La posición de inicio está en orden de aumento2. Las diagonales de HSPs consecutivos son casi los mismos ("núcleo del exon") o

difieren lo suficiente para ser un posible intron.


LF-2002.10

Límites del hallazgo de exones.Si los “núcleos del exon" se sobrelapan, los extremos se ajustan a los límite de las secuencias (GT..AG o CT..AC). Si los “núcleos del exon" no se sobrelapan, entonces son extendidos con un método "codicioso". Los extremos se ajustan para encontrar el límite de las secuencias. Si este último paso falla, se busca la región entre dos núcleos adyacentes del exon para HSPs con astringencia reducida.

Determinación de los alineamientosAl encontrar exones con límites anclados, estos son realineados por un método de alineamiento de secuencias de ADN muy similares (Chao et al., 1997).

Otras herramientas similares:Spidey (http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/index.html)est2genome (EMBOSS package)

Mapeo de EST en genomas

universidad nacional de colombia instituto de...

Documents