bioinformatics biostatistics with dynamic programming and sequence alignment

Download Bioinformatics Biostatistics with dynamic programming and sequence alignment

If you can't read please download the document

Upload: victoria-lopez

Post on 16-Apr-2017

1.131 views

Category:

Technology


2 download

TRANSCRIPT

Bioinformtica

BioinformticaVictoria Lpez, [email protected], Despacho 309 Facultad de InformticaMaster en Investigacin en Informtica

1

Bioinformtica: ProgramaIntroduccin a la BioinformticaEstructura de protenas y cidos nucleicosAnlisis de SecuenciasBases de datos en BiologaAnlisis de datos: tcnicas de agrupamientoMinera de datos en BioinformticaLenguaje R* y aplicaciones a Bioinformtica

2

Bioinformtica: bibliografaCompilador de R : http://cran.r-project.org/Libros: http://www.r-project.org/Manuals contributed documentation: Applied Statistics for Bioinformatics Using R by Wim KrijnenStatistics Using R with Biological Examples by Kim Seefeld and Ernst Linder Practical Regression and Anova using R by Julian FarawayR and Data Mining: Examples and Case Studies by Yanchang Zhao

3

Trabajo y EvaluacinExposiciones tericas basadas en la bibliografa y en artculos. Sesiones prcticas con R. Presentacin de los trabajos por parte de los alumnos: exposiciones individuales del tema desarrollado a partir de los documentos proporcionados en el Campus Virtual y va Web (documentacin utilizada en clase, presentaciones y artculos).Criterios de evaluacin:Asistencia y participacin en las discusiones (30%), trabajo prctico individual y exposicin (70%)4

07/03/2014Introduccin a la Bioinformtica51- INTRODUCCIN A LA BIOINFORMTICA

07/03/2014Introduccin a la Bioinformtica6We are drowning in information and starved for knowledgeJohn Naisbitt

Who on efficient work is bent,Must choose the fittest instrument.Goehthe (Fausto)

07/03/2014Introduccin a la Bioinformtica7Introduccin a la BioinformticaIntroduccin: La explosin de informacinSobre informacin biolgicaPero, qu es la bioinformtica?Los grandes bloques temticos de la BIFLos grandes centros y bancos de datosUn poco de prcticaReferencias

07/03/2014Introduccin a la Bioinformtica8Una explosin de informacinEl fin del siglo XX ha visto una explosin de informacin provinente de los seres vivos, especialmente en biologa molecularSecuenciacin de genomasSecuencia y estructura de protenasEstudios sobre la expresin simultnea de muchos genes bajo muchas condiciones diferentes.

07/03/2014Introduccin a la Bioinformtica9El crecimiento explosivo de datosHace ...AntesAhoraNucletidos26 aos (1982) 680338 pb (GenBank)> Miles de millonesProtenas26 aos1500300.000DNA continuo16 aos73 kb> 270 MbasesSNPs16 aoscentenares11 millonesGenomas 11 aos0organismos1282Organismos(mediados 2010)Expresin 10 aosLimitado pocos genesMiles de estudios con miles de genes

07/03/20149

07/03/2014Introduccin a la Bioinformtica10Crecimiento de GenBank

(1982-2000)

07/03/2014Introduccin a la Bioinformtica11Genomes Online Database

07/03/2014Introduccin a la Bioinformtica12La informacin biolgicaLa informacin biolgica se encuentracodificada en los genes y se expresa a partir / mediante los genesEsta idea se refleja en el Dogma Central de la Biologia Molecular

07/03/2014Introduccin a la Bioinformtica13El dogma central

07/03/2014Introduccin a la Bioinformtica14Informacin biolgica y bioinformticaLa biologa se enfrenta con el problema de la decodificacin del lenguaje biolgicoComo se codifica la informacin en los genes?Como (cuando, ...) se traduce esta informacin?Ej. Splicing alternativoQu determina la estructura de las protenas?Como se determina la funcin de las protenasLa bioinformtica sirve para estudiar como se procesa toda esta informacin biolgica

07/03/2014Introduccin a la Bioinformtica15

07/03/2014Introduccin a la Bioinformtica16La informacin biolgicaLos cidos nucleicos (AN) contienen la informacin para generar los organismos:DNA RNA PROTEINAS FuncinLas protenas se forman con aminocidos (AA) unidos en secuencias linealesLas instrucciones para definir la secuencia de AA estn codificadas en los AN por grupos de tres nucletidos, en un cdigo gentico redundante

07/03/2014Introduccin a la Bioinformtica17El cdigo gentico

07/03/2014Introduccin a la Bioinformtica18Codificacin de informacin biolgicaLas secuencias biolgicas se organizan en grupos con un significado, en general desconocido para nosotros

Podemos distinguir una jerarqua (niveles de organizacin) que podemos comparar conFrases (las protenas)Palabras (motivos o configuraciones)Letras (Los AA o los nucletidos)

07/03/2014Introduccin a la Bioinformtica19Descifrado de la informacin biolgicaLas secuencias, establecidas experimentalmente se representan como cadenas de un alfabeto y se comparanRegiones comunes asocian las palabras a propiedades comunes de las molculasRegiones diferentes revelan palabras con un sentido asociado a propiedades que diferencian a las molculasMuchas regiones no contienen informacin

07/03/2014Introduccin a la Bioinformtica20Pero, qu es la Bioinformtica?Nace a partir del desarrollo de nuevas tecnologas y de su aplicacin para la generacin de grandes cantidades de datos.

La disciplina cientfica que engloba todos los aspectos de la adquisicin, procesamiento, distribucin, anlisis, interpretacin e integracin de la informacin biolgica

07/03/2014Introduccin a la Bioinformtica21Bioinformtica e interdisciplinariedad

MathematicsStatisticsComputer ScienceInformaticsBiologyMolecular biologyMedicine

ChemistryPhysics

Bioinformatics

07/03/2014Introduccin a la Bioinformtica22Bioinformtica, Biologa yBiologa Computacional

07/03/2014Introduccin a la Bioinformtica23Biologa Computacional o BioinformticaComputational biology applies the techniques of computer science, applied mathematics and statistics to address biological problems. Bioinformatics is the application of information technology to the field of molecular biology.

07/03/2014Introduccin a la Bioinformtica24

The future of genomics rests on the foundation of the Human Genome Project Genmica y Bioinformtica

07/03/201424Los mtodos computacionales se han convertido en algo intrnseco de la investigacin biolgica moderna, y su importancia slo puede incrementar conforme aumenta la importacia de los mtodos a gran escala de generacin de datos, la complejidad de los datos y la sofisticacin de nuestras preguntas

Francis S. Collins

07/03/2014Introduccin a la Bioinformtica25Los mbitos de la Bioinformtica

07/03/2014Introduccin a la Bioinformtica26Los mbitos de la BioinformticaOrganizacin de la informacinBases y bancos de datosAlgoritmos y herramientas de explotacinAnlisis e interpretacin de resultados experimentalesSecuenciacin y anlisis de genomasGenmica ComparatvaTranscriptmica y expresin gnicaProtemica, redes de interaccin PPIModelos de Sistemas Biolgicos

07/03/2014Introduccin a la Bioinformtica27Organizacin de la informacin

07/03/2014Introduccin a la Bioinformtica28Anlisis e interpretacin

A G G G T T A T G C G C GA G A G T T C T G C T C G

07/03/2014Introduccin a la Bioinformtica29Modelizacion de sistemas biolgicos

07/03/2014Introduccin a la Bioinformtica3030Bioinformtica Integrativa

07/03/20143030

07/03/2014Introduccin a la Bioinformtica31En resumen Como quiera que se defina, desde donde quiera que se mire, el papel de la Bioinformtica ha sido, es y ser crucial para el avance de la Biologa y la Medicina del siglo XXI

DatosConocimiento Recursos y herramientas bioinformticos

07/03/2014Introduccin a la Bioinformtica32Qu sabe un bioinformtico? Debe tener slidos conocimientos enAlguna disciplina biolgica Bioqumica, Gentica,Entornos de desarrollo informticosSO [Linux], Lenguajes[Perl, Java, R], Bases de datos [SQL], Desarrollo web [PHP, ASP, Ajax]Alguna disciplina cuantitativa [Matemticas, Estadstica, Fsica]

Al menos dos de las tres anteriores!!

07/03/2014Introduccin a la Bioinformtica33Qu hace un bioinformtico?Gestin de la informacinImplementacin y explotacin de bases de dados locales o en internet.Instalacin, mantenimiento de servidores web.Desarrollo de aplicacionesElaboracin de programas locales o web,Explotacin y anlisis de datosMicroarrays, datos de alto rendimiento

07/03/2014Introduccin a la Bioinformtica34Dnde se hace Bioinformtica?Centros EspecializadosEBI, NCBI, EMBL.INB / Plataforma Bioinformatica de la UAB.Servicios Bioinformticos de centros de investigacin,UEB, UBB, BUUniversidades,Laboratorios Farmacuticos,

07/03/2014Introduccin a la Bioinformtica35Cmo se hace Bioinformatica?Usualmente, aunque no necesariamente la BIF tiene vocacin universal, de acceder al mximo de usuarios: Suele buscarse soluciones WEBSuele basarse en proyectos [ms o menos] open source de distribucin libre.Esto no es del todo general Por ejemplo Ingenuity Pathway Analysis no es gratis pero es bueno.

07/03/2014Introduccin a la Bioinformtica36Para saber ms:Existen multitud de recursos gratuitos2can en el EBITutoriales del NCBICursos localesIntroduccin a la Bioinformatica (A. Sanchez UEB/UB)Invitacio a la Bioinformatica (Plataforma BIF UAB)Una gran variedad de libros sobre el temaList of books on bioinformaticsRevistas y sociedades cientficasBioinformatics, Briefings in BioinformaticsInternational Society for Computational Biology

07/03/2014Introduccin a la Bioinformtica37Los centros de bioinformtica y los bancos de datos

07/03/2014Introduccin a la Bioinformtica38Las bases de datos biolgicasBuena parte del trabajo en bioinformtica consiste en la construccin y/o explotacin de bases de datos de informacin biolgicaSe usan, por ejemplo para:Aadir o buscar informacin (anotaciones)Buscar similitudes o patronesHacer prediccionesDe estructura o funcin en protenasDe genes en genomas

07/03/2014Introduccin a la Bioinformtica39El acceso a los recursosLa WWW ha revolucionado la provisin de servicios en bioinformticaMuchas cosas pueden hacerse a travs de internet sin que sean necesarias copias locales de las bases de datos o el software para explotarlasA pesar de esta globalizacin existen organizaciones que centralizan los recursos

07/03/2014Introduccin a la Bioinformtica40Centros y recursos importantesCentros importantes a nivel mundialEMBL / EBI (www.embl.org / www.ebi.ac.uk )NCBI ( www.ncbi.nlm.nih.gov )DDBJ ( www.ddbj.nig.ac.jp )Bases de datos biolgicasEMBL DNA sequence databaseSWISSPROT i TREMBLPIR, PDBCatlogo de bases de datos biolgicaswww.infobiogen.fr/services/dbcat

07/03/2014Introduccin a la Bioinformtica41Un poco de prctica

07/03/2014Introduccin a la Bioinformtica42Ejemplos de uso de la BioinformticaClasificacin de un hongo, comparando una secuencia suya con las de una base de datos para determinar si las hay similaresVisualizacin de estructuras moleculares en tres dimensionesIntroduccin al anlisis de secuencias

07/03/2014Introduccin a la Bioinformtica43Ejemplo 1: Identificacin de un hongoUnos investigadores han detectado una infeccin fngica en un cultivo agrario. En caso de duda en la identificacin directa (crecimiento lento del hongo, caractersticas morfolgicas similares entre varias especies, etc.) se puede plantear la alternativa siguiente:Secuenciar un fragmento del ADN del hongoBuscar en bases de datos moleculares intentando encontrar la misma secuencia o una lo ms similar posible (DB homology search)

07/03/2014Introduccin a la Bioinformtica44Ej. 1.1 Secuencia caractersticaObtenemos la secuencia siguientegtttacgctctacaaccctttgtgaacatacctacaactgttgcttcggcgggtagggtctccgcgaccctcccggcctcccgcctccgggcgggtcggcgcccgccggaggataaccaaactctgatttaacgacgtttcttctgagtggtacaagcaaataatcaaaacttttaacaaccggatctcttggttctggcatcgatgaagaacgcagcgaaatgcgataagtaatgtgaat

07/03/2014Introduccin a la Bioinformtica45Va internet accedemos al EBI: European Bioinformatics InstituteAqu escogemos la opcin Tools y Seleccionamos Fasta3 Seleccionamos en DATABASES :Nucleic ACIDS , FUNGIEnganchamos la secuencia y hacemos la consultaObtendremos un listado de especies ordenado de mayor a menor similitud

Ej. 1.2 Bsqueda de la secuencia en una base de datos

07/03/2014Introduccin a la Bioinformtica46i) Vamos a la Web del EBI

07/03/2014Introduccin a la Bioinformtica47ii) Escogemos la opcin Tools

07/03/2014Introduccin a la Bioinformtica48

iii) En Tools seleccionamos FASTA3

07/03/2014Introduccin a la Bioinformtica49iv) la opcin DATABASES NUCLEIC ACIDS, FUNGI

07/03/2014Introduccin a la Bioinformtica50v) Enganchamos la secuencia en el cuadro inferiory ejecutar (Run FASTA 3)

07/03/2014Introduccin a la Bioinformtica51v) Resultados de la bsqueda

FASTA searches a protein or DNA sequence data bank version 3.3t09 May 18, 2001Please cite: W.R. Pearson & D.J. Lipman PNAS (1988) 85:2444-2448

@:1-: 241 nt vs EMBL Fungi librarysearching /ebi/services/idata/v225/fastadb/em_fun library

104701680 residues in 66478 sequences statistics extrapolated from 60000 to 61164 sequences Expectation_n fit: rho(ln(x))= -1.2290+/-0.000361; mu= 72.1313+/- 0.026 mean_var=907.6270+/-295.007, 0's: 68 Z-trim: 4246 B-trim: 15652 in 3/79 Lambda= 0.0426

FASTA (3.39 May 2001) function [optimized, +5/-4 matrix (5:-4)] ktup: 6 join: 48, opt: 33, gap-pen: -16/ -4, width: 16 Scan time: 3.180The best scores are: opt bits E(61164)EM_FUN:CGL301988 AJ301988.1 Colletotrichum glo (1484) [f] 1184 88 5.7e-17EM_FUN:AF090855 AF090855.1 Colletotrichum gloe ( 500) [f] 1205 88 7.3e-17EM_FUN:CGL301986 AJ301986.1 Colletotrichum glo (1484) [f] 1166 87 1.2e-16EM_FUN:CGL301908 AJ301908.1 Colletotrichum glo (2868) [f] 1148 87 1.3e-16EM_FUN:CGL301909 AJ301909.1 Colletotrichum glo (2868) [f] 1148 87 1.3e-16EM_FUN:CGL301907 AJ301907.1 Colletotrichum glo (2867) [f] 1148 87 1.3e-16EM_FUN:CGL301919 AJ301919.1 Colletotrichum glo (1171) [f] 1166 87 1.6e-16EM_FUN:CGL301977 AJ301977.1 Colletotrichum glo (1876) [f] 1148 86 2e-16EM_FUN:CFR301912 AJ301912.1 Colletotrichum fra (2870) [f] 1137 86 2.1e-16

07/03/2014Introduccin a la Bioinformtica52Ejemplo 2: Visualizacin de estructuras molecularesRASMOL es un programa para visualizar estructuras moleculares en tres dimensiones

Haciendo click aqu podis acceder a una gua rpida del programa desde donde podris descargarlo, instalarlo y ejecutarlo con facilidad

07/03/2014Introduccin a la Bioinformtica53Ejemplo 3: Introduccin prctica al anlisis de secuenciasHaciendo click aqu se accede al Bioinformatics Web Practical del servicio de Bioinformtica de la Universidad de Manchester (UMBER)El objetivo de este tutorial esDar un vistazo a algunos recursos bioinformticos existentes en InternetAdquirir una primera idea sobre que es el anlisis de secuencias

A continuacin podis ver algunas de las pantallas que aparecern

07/03/2014Introduccin a la Bioinformtica54

Enganchamos una secuencia al traductor

07/03/2014Introduccin a la Bioinformtica55

Traduccin de la secuencia y bsqueda en OWL

07/03/2014Introduccin a la Bioinformtica56

La secuencia ha sido identificada

Experimentos biolgicosEn organismos vivos (in vivo)En entornos o ambientes artificiales (in vitro)

Mediante chips de silicona con los que construir microprocesadors (in silicio)57

2. Estructura de protenas y cidos nucleicos

58

Anlisis de Secuencias de ProtenasProtenas presentes en la alimentacinCompuestas por aminocidos (aa) Molculas orgnicas complejas hechas de carbono, hidrgeno, oxgeno, nitrgeno y sulfuroC1200H4000O600N300S100Interesa estudiar propiedades de las protenasPara ello se buscan representaciones adecuadas de su estructura molecularLas protenas son macromolculas: de 100 a 500 aminocidos.59

Tabla de los 20 aminocidos

60

Cdigos de ambigedad

61

Representacin de los aminocidosLos aminocidos tienen tres representaciones diferentes:Mediante su nombre (Glutamina, Tirosina, )Mediante un cdigo de letra nica (Q, Y,)Mediante un cdigo de tres letras (Gln, Tyr,), este ltimo acordado por el IUPAC (International Union of Pure and Applied Chemistry)

62

Propiedades inicialesPropiedades bsicas de las protenas:Un tipo de protena contiene siempre exactamente el mismo nmero de aminocidos (tambin denominados residuos)Insulina=30glicerinas+44 alcalinas+5tirosinas+Los aminocidos de un tipo de protena estn asociados como una cadena y adems se puede conocer el orden exacto de su constitucin de aminocidos.La primera protena o secuencia de aminocidos que se descubri fue la insulina en 1951 por F. Sanger. Se trata de una cadena formada por 110 residuos.

63

Frederick Sanger

Nacimiento 13 de agosto de 1918Conocidopor:Su trabajo sobre la bioqumica de los cidos nucleicos.Su trabajo sobre la estructura de las protenas, en especial de la insulina. Sociedades:Royal Society(1954) Premios destacados Premio Nobel de Qumica (1958).Premio Nobel de Qumica (1980).Orden del Imperio Britnico(1963).Medalla Copley (1977).Orden de Mrito del Reino Unido(1986).Medalla Royal (1977)Con este investigador y con el estudio de las secuencias moleculares la biologa pas de ser un soft science (frente a la fsica y a la qumica) a ser una ciencia fundamental.64

Comienzo del uso de computadoresAos 60: ordenadores poco potentes, no se pueden ejecutar bsquedas ni realizar reconocimiento de secuencias con agilidad.Las secuencias se analizan y se comparan manualmente, escribindolas en papel y pegndolas en paredes (pattern matching)Con el estudio, la manipulacin y el anlisis de las secuencias de protenas usando computadores se inicia la bioinformtica. Hasta los 80 no se revela un avance significativo, pero desde esa fecha, el crecimiento es exponencial debido al avance de la tecnologa y los procesadores en particular.

65

Secuencias de protenasLas 20 molculas de aminocidos en las protenas tienen cuerpos diferentes. La raz o nivel superior es el cdigo de un aminocido de la tabla o cdigo de una letra, mientras que sus hijos (hooks o ganchos) en el nivel siguiente son siempre de la forma NH2 y COOH, como se muestra en la Figura 1. Estos grupos de tomos se usan para formar los conocidos peptidic bounds entre sucesivos residuos de la secuencia.

66

Enlaces peptdicosLos enlaces peptdicos o enlaces entre dos aminocidos (enlace amina) son reacciones qumicas entre el grupo amino (NH2) de un aminocido y el grupo carboxilo (COOH) de otro aminocido formndose un enlace covalente entre el tomo de carbono y el de nitrgeno: OC-NH con la prdida de un grupo OH y un H para formar una molcula de agua.

La cadena de aminocidos slo define la protena pero no informa por s misma de las caractersticas biolgicas o propiedades de dicha protena. Nos interesa conocer, por ejemplo, la habilidad de la protena para digerir el azcar, o para formar parte de un tejido muscular, etc. Estas propiedades vienen dadas por la forma tridimensional que la cadena adopta en su ambiente.67

Estructuras 3D Una molcula de protena es una cadena de eslabones no flexibles, la estructura es rgida, compacta y bien limitada.Su forma 3D depende de la secuencia y el comportamiento de algunos aminocidos en determinados ambientes.La primera estructura 3D de una protena fue determinada en 1958 por Kendrew y Perutz.Las protenas con igual secuencia pueden plegarse en formas similares Protenas con estructuras similares pueden codificarse como secuencias similares de aminocidos.

Estructuras 3DLa funcin de la protena es una consecuencia directa de su estructura 3D, es decir, de su forma o shape.Anlisis de la protena:Secuencia estructura funcin Bioinformtica estructural: Representacin grfica de la protena y su visualizacin 3D

John Cowdery KendrewOxford, Inglaterra 1917 - Cambridge 1997Qumico ingls galardonado con el Premio Nobel de Qumica del ao 1962. Adjunto de Max Perutz en el Laboratorio de Biologa Molecular del Britain's Medical Research Council, Colabor con l en el estudio de la estructura de las protenas de los glbulos rojos, realizando investigaciones paralelas a las de Perutz sobre la protena muscular denominada mioglobina. Los diagramas de difraccin de rayos X en las cadenas peptdicas que constituyen la molcula de la mioglobina y en la cual se haban fijado previamente tomos pesados de oro o mercurio, le permitieron dilucidar la estructura espacial de esta molcula en 1959. En 1962 comparti con Perutz el Premio Nobel de Qumica por estos trabajos.

Max Ferdinand PerutzViena, 19 de mayo de 1914 - Cambridge, 6 de febrero de 2002Fue un qumico britnico, de origen austraco, galardonado con el Premio Nobel de Qumica del ao 1962. En 1953 descubri que, incorporando un tomo pesado (oro o mercurio) a cada una de las molculas de la red cristalina de la hemoglobina, se producan pequeas modificaciones en su correspondiente posicin, la interpretacin del cual le permiti dar a conocer en 1960 el primer modelo tridimensional de la molcula de la hemoglobina. En 1959 consigui determinar la estructura molecular de la mioglobina, por la cual Perutz y Kendrew fueron galardonados con el Premio Nobel de Qumica de 1962.

Definicin de protenaLas protenas son compuestos qumicos formados por la combinacin de veinte pequeas molculas denominadas aminocidos (aa). Qumicamente se componen sobretodo de carbono, hidrgeno, oxgeno y nitrgeno aunque tambin pueden presentar otros elementos (azufre, hierro, fsforo, zinc o cobre). Las protenas pueden formarse nicamente por aa (holoprotenas) o contar con una parte no proteica (heteroprotenas) y participan en un elevado nmero de funciones en el organismo. Montserrat Camia TatoBiloga - Investigacin Biomdica - Universidad de Santiago de Compostela

Bioinformtica de la ProtenaRecuperacin de secuencias de protenas desde bases de datos en Internet.Clculo de la composicin de aminocidos, peso molecular, punto isoelctrico y otros parmetros de la protena.Visualizacin de estructuras.Bsqueda de protenas con estructura similar a una secuencia dadaClasificacin de protenas en familias.Bsqueda del mejor alineamiento entre dos o ms protenasEtc.

Anlisis de las secuencias de ADN El ADN es otro tipo de macromolcula (cido dexioribonucleico) parecida a la protena. Su estructura es tambin una cadena, pero en esta caso presenta la forma de una doble hlice y cada enlace de la cadena es una pareja de nucleticos de un grupo de 4 posibles, frente a los 20 aminocidos en la protena. En este sentido la estructura del ADN es ms sencilla que la de la protena. Por eso los estudios sobre el ADN han sido mucho ms rpidos.

Tabla de la codificacin de los nucletidos

Estructura del ADNHasta los aos 70 no pudo determinarse la secuencia de molculas del ADN ni su alfabeto de 4 nucletidos.Estos 4 elementos tienen distintos cuerpos pero el mismo par de ganchos (hooks): 5D y 3OH. Se asocian de forma similar a como ocurra con la estructura de la protena.

AND: Doble Hlice Una secuencia de ADN siempre se define como la sucesin de sus nucletidos desde el 5 hasta el 3. En 1953 se descubri la forma de doble hlice de la molcula del ADN Consiste en dos cadenas complementarias respecto a las molculas enfrentadas. Los emparejamientos A-T, G-C, etc., se realizan de forma biyectiva uno a uno y con relacin recproca. A partir de una hebra, se puede deducir la otra complementaria directamente.

AND: Doble Hlice La mayora de los programas de Data Mining, como por ejemplo BLAST, tienen en cuenta las dos cadenas pero algunos programas solo analizan la secuencia que dada como cadena nica. Dependiendo del tipo de estudio ser importante tener en cuenta las dos cadenas complementarias o una sola.

Propiedad de encadenamientoEsta propiedad de la estructura del ADN es la piedra angular para determinar la estructura y la secuenciacin del ADN. Por ejemplo, cuando los organismos vivos se reproducen cada uno de sus genes debe multiplicarse. Este proceso no ocurre generando una copia directa sino que se separan dos hebras de ADN y a partir de ellas se generan otras dos complementarias. Por ello es fundamental comprender esta propiedad de complementariedad en su estructura. La siguiente imagen representa esta situacin.

Relacin Protena, DNA, RNA

Secuencias palndromas en el ADN

ATGCTGA. Y .TCAGCAT corresponden a cadenas enfrentadas. Otra propiedad fascinante adicional a la complementariedad del ADN es que a veces regiones de ADN pueden corresponder a secuencias que son idnticas cuando se leen desde las dos cadenas complementarias (en la direccin correspondiente).Estas secuencias se denominan palndromas porque la lectura de izquierda a derecha coincide con la lectura de derecha a izquierda.

Las secuencias palndromas juegan un papel muy importante porque por ejemplo, la mayora de las encimas restringidas del ADN, llamadas cutting enzimes tienen secuencias palndromas y otras secuencias palndromas sirven como binding sites (emplazamientos vinculantes), por este tipo de razones esta propiedad es fundamental en acciones de clasificacin de secuencias. Las secuencias palndromas tienen una fuerte influencia en la estructura 3D de las molculas de DNA y de RNA

Secuencias palndromas en el ADN

Subsecuencias PalndromasUn ejercicio clsico en bioinformtica es la bsqueda de subsecuencias palndromas o casi palndromas en secuencias de ADN.

El RNAEl ADN o cido dexioribonuclico es el nuclico ms conocido y dignificado de la familia de macromolculas. Su tarea es asegurar la conservacin de la informacin gentica en el organismo. El cido ribonuclico o RNA es un miembro ms activo de la familia de los cidos nuclicos: se sintetiza y se degrada constantemente creando copias de genes disponibles, a modo de fbrica de clulas.

El RNA

Diferencias entre el DNA y el RNADifieren en un nico nucletido: el uracil (U) en el RNA sustituye a la timina (T) en el DNA.La forma de doble hlice en el DNA es una hlice simple en el RNA. Debido a sus similitudes, muchos programas no se molestan en diferenciar la codificacin y analizan las secuencias de RNA con la notacin del DNA.

La estructura del RNA

Aunque la molcula de RNA consta de una nica cadena de nucletidos su tendencia natural es la bsqueda de emparejamientos con secuencias complementarias.Aunque es una nica cadena, se asemeja a la doble cadena del ADN porque se produce el plegado como puede observarse en la figura ; la forma final es de una hlice.

Una vez sintetizada cada molcula de RNA adopta un plegado compacto rpidamente tratando de emparejar el mximo nmero de nucletidos manteniendo la geometra de la cadena. Los bucles (horquillas) son elementos bsicos de la estructura.La estructura 3D est hecha de nucletidos C-V desemparejados (la horquilla) y de bases emparejadas (el resto). A estas parejas se les llama stems. La secuencia lineal de estos bloques y horquillas determinan la forma 3D final. La funcin de las molculas de RNA tambin deriva de la forma 3D de su estructura como ocurre con el ADN.

La estructura del RNA

Codificacin del DNA

De los cientos de miles de secuencias de protenas que actualmente contienen las Bases de Datos slo un pequeo porcentaje corresponde a molculas que han sido aisladas (por alguien o mediante algn experimento). Determinar la secuencia de una protena es mucho ms difcil que determinar la secuencia de un ADN.Todas las protenas que un organismo dado puede sintetizar estn codificadas como la secuencia de DNA de su genoma (tanto si es un microbio como si es un ser humano)El atajo que usan los bilogos para leer las secuencias de protenas es leer directamente la secuencia del DNA y extraer de esta secuencia el resto de la informacin.De esta forma podemos conocer, por ejemplo, la secuencia de aminocidos de una protena aunque nunca haya sido aislada en un tubo de ensayo.

Transformacin de ADN en protenas. Cuando se conoce una secuencia de DNA, sta se puede traducir en la correspondiente secuencia de protenas usando el cdigo gentico. El cdigo gentico es universal (salvo algunas excepciones) Es la solucin para relacionar de forma nica una secuencia de 4 nucletidos con un juego de 20 aminocidos. Comprender cmo la clula hace esta transformacin fue uno de los logros ms importantes de la biologa en los aos 60. La respuesta final se puede explicar en una pequea tabla

El Cdigo Gentico

El Cdigo GenticoCmo usar la tabla de los cdigos de la gentica estndar :

Paso 1. Leer la secuencia de ADN.Paso 2. Descomponerla en tripletas sucesivas continuasPaso 3. Traducir cada tripleta en el correspondiente aminocido.

Ventajas de la codificacinSi la secuencia de ADN est correctamente orientada de 5 a 3 el resultado de la secuencia de protena va tambin del trmino N al C.Si se conoce dnde comienza la codificacin de la protena en la secuencia del ADN se puede intentar generar la correspondiente secuencia de aminocidos usando programas de ordenador (secuenciacin de la protena) Muchos programas de anlisis de secuencias ofrecen este tipo de traducciones on the fly de forma que se pueden procesar secuencias de DNA como secuencias virtuales de protenas ejecutando el algoritmo correspondiente.

Ms observaciones relativas a la codificacin de secuencias de DNA.La protena resultante de los procesos de secuenciacin depende directamente del modo en que se convierten las secuencias de DNA en tripletas.Se puede hacer como ejercicio las posibilidades del anlisis de la cadena de una figura anterior.Los resultados son diferentes si se comienza la codificacin en la primera, en la segunda o en la tercera posicin Tres formas diferentes. Teniendo en cuenta que la lectura del ADN puede realizarse de izquierda a derecha o al revs, hay seis posibilidades de traduccin.

Un intervalo de una secuencia de ADN que contenga un stop (traduccin de TAA, TGA o TAG) se denomina un open reading frame (ORF) o estructura de lectura abierta que admite varias codificaciones. Solo se utiliza una de las 6 posibilidades referidas para codificar cada regin de ADN, pero algunas secuencias de ADN no son codificaciones de protenas y tambin aparecen grandes trozos de ADN no codificado entre los genes de los organismos. Gran parte de la bioinformtica est dedicada al desarrollo de mtodos para localizar regiones de protena codificadas en las secuencias del DNA y determinar dnde comienzan y dnde finalizan los genes o dnde se interrumpen por intervalos no codificados (denominados introns). Ms observaciones relativas a la codificacin de secuencias de DNA.

Qu estudia la bioinformtica del DNA y del RNA?

Recuperacin de secuencias de ADN de las bases de datosComputacin de la composicin de nucletidosIdentificacin de lugares restrictivosIdentificacin de ORFsClculo del alineamiento ptimo entre dos o ms secuencias de DNAEnsamblar fragmentos de secuenciasEncontrar lugares polimrficos en genes Etc.

Trabajando con el genoma completo

En 1977 se descubri la primera tcnica verdaderamente eficiente para la secuenciacin del ADN. En 1995 se determin la primera secuencia de un genoma completo (el microbio Hemophilus infuezae). En este periodo se crearon las herramientas informticas ms interesantes para la secuenciacin del ADN: programas para alineamiento de secuenciasmtodos de clasificacin de secuenciasalgunas herramientas de visualizacin.

La genmica

La genmica es el estudio del mapa gentico y se basa en el anlisis completo de la secuencia del genoma mediante la secuenciacin de genomas completos. En la actualidad tenemos que trabajar con secuencias de DNA mucho ms largas (desde aproximadamente un milln de bps para microbios hasta varios billones de bps de longitud para animales y humanos). Esto supone unas herramientas informticas capaces de almacenar, consultar, analizar y visualizar objetos enormes (como conjuntos de datos) de forma sencilla para los usuarios.

En contraste con los anlisis gen a gen que se realizaban en los inicios de la bioinformtica, ahora las secuencias de ADN se obtienen frecuentemente sin un conocimiento previo de lo que hay realmente. En esencia, los genes son al mismo tiempo secuencias y descubrimiento de sus componentes.Otras cosas que puede hacer la bioinformtica por el estudio del genoma: Encontrar qu genomas estn disponibles en las bases de datosAnalizar secuencias en genomas especficosMostrar genomas mediante programas de visualizacinEtc. La genmica

La genmica: Ejemplo.

La figura representa el genoma completo de la bacteria Rickettsia conorii. Esta molcula de DNA circular es de 1.3 millones de bps de longitud. Cada rectangulito en los dos anillos ms externos corresponde a una codificacin de protena del gen en el genoma circular. Cada rectangulito supone unos 1000 bps. Antes de comenzar la secuenciacin de este genoma nadie conoca qu genes o protenas haba en esta bacteria as que casi todo lo que se conoce ahora sobre ella ha sido resultado del anlisis por medio de la bioinformtica.

RESUMEN: La informacin biolgicaLos cidos nucleicos (AN) contienen la informacin para generar los organismos:DNA RNA PROTEINAS FuncinLas protenas se forman con aminocidos (AA) unidos en secuencias linealesLas instrucciones para definir la secuencia de AA estn codificadas en los AN por grupos de tres nucletidos, en un cdigo gentico redundante

07/03/2014Introduccin a la Bioinformtica102

2-Alineamiento de secuencias

07/03/2014Introduccin a la Bioinformtica103Alineamiento de Secuencias1. Conceptos bsicos2. Mtodos grficos de alineamiento3. Puntuacin de los alineamientos4. Programacin dinmica 5. Mtodos heursticos

07/03/2014Introduccin a la Bioinformtica104Conceptos bsicosEl alineamiento de secuencias es probablemente la herramienta ms utilizada en bioinformtica Su objetivo es alinear dos o ms secuencias (de DNA o protenas) de forma que puedan destacarse las regiones similares entre las molculasAl determinar si una secuencia desconocida es similar, en algn sentido, a secuencias conocidas (e idealmente de estructura y funcin conocidas) podremos identificarla y predecir su estructura y funcin

07/03/2014104

07/03/2014Introduccin a la Bioinformtica105AplicacionesMediante un alineamiento global entre genomas se puedeidentificar repeticiones internas (S1 vs S1) o encontrar secuencias conservadas entre especies (S1 vs S2) Para predecir la funcin de una protena desconocida suele buscarse dominios funcionales comunes, mediante alineamientos locales entre dos secuenciasmediante alineamientos mltiples entre conjuntos de secuenciasPara buscar una secuencia en una base de datos se alinean por separado distintos fragmentos y se cuantifica el grado de similitud alcanzadoSe pretende predecir la estructura de una secuencia identificndola con otras

07/03/2014105

07/03/2014Introduccin a la Bioinformtica106Mtodos de alineamientoExisten muchos programas disponibles en WWW para alinear secuencias y buscarlas en las BDSi se pretende que el resultado de dichos programas sea til no deben ser cajas negrasLa correcta eleccin del programa ( mtodo) y de sus parmetros es muy importanteUna eleccin inadecuada puede conllevar la no deteccin de similitudes relevantes

07/03/2014Introduccin a la Bioinformtica107Visin global de los mtodosAlineamiento de dos secuenciasMtodos grficos: Dotplot. Es intuitivo, pero difcil de cuantificar Algoritmos ptimos de alineamiento global (NW) o local (SW)Obtienen el mejor alineamiento posible con programacin dinmicaSon demasiado exigentes para ser prcticos en bsquedas extensivasAlineamientos mltiplesAlgoritmos heursticos para bsqueda en bases de datos FASTA, BLASTDan soluciones buenas, no necesariamente ptimasPueden ser mucho ms rpidos

07/03/2014107

07/03/2014Introduccin a la Bioinformtica108Alineamiento de secuenciasEs el procedimiento consistente en comparar dos (pairwise) o ms (multiple) secuencias buscando los caracteres o patrones que aparezcan en el mismo orden en las secuencias

Podemos distinguir entre alineamientosGlobales: Alineamiento de secuencias completasLocales : Alineamiento de subsecuencias

07/03/2014108

07/03/2014Introduccin a la Bioinformtica109Ejemplos de alineamientos

07/03/2014109

07/03/2014Introduccin a la Bioinformtica110Ejemplo de alineamiento mltiple

07/03/2014Introduccin a la Bioinformtica111Mtodos grficos de alineamiento

07/03/2014111

07/03/2014Introduccin a la Bioinformtica112Los DotplotsSe obtienen disponiendo dos secuencias S y T en los mrgenes horizontal y vertical de una tablay marcando con una cruz (un punto) todas las posiciones en que coinciden los caracteres de S y T Si son idnticas se observa una diagonal definidaCuanto ms diferentes sean, ms difusa serLa aparicin de patrones permite revelar estructuras en las secuencias

07/03/2014112

07/03/2014Introduccin a la Bioinformtica113Umbral de severidad (Stringency threshold)Para facilitar la visualizacin, se opta a menudo por mostrar nicamente las diagonales formadas por un nmero mnimo de puntos (umbral de severidad). Cota que se fija como mnimo valor para mostrar la secuencia.

Si el umbral de severidad es alto Eliminamos el ruido de fondo (filtrado alto)Solo detecta similitudes muy altas

Si es bajo Hay ruido de fondo Detecta relaciones distantesEn Softcomputing se denominan alfa-cortes

07/03/2014113

07/03/2014Introduccin a la Bioinformtica114Ejemplo de dotplot 1: Una secuencia con ella misma

07/03/2014114

07/03/2014Introduccin a la Bioinformtica115Ejemplo de dotplot 2: Secuencias que han divergido

07/03/2014115

07/03/2014Introduccin a la Bioinformtica116Ejemplo de dotplot 3: Inserciones y deleciones

07/03/2014116

07/03/2014Introduccin a la Bioinformtica117 Puntuacin de los alineamientos

07/03/2014Introduccin a la Bioinformtica118Para cuantificar la similitud entre dos cadenas, S y T, definimos sistemas de puntuaciones de forma que para cada alineamiento se pueda calcular un nmero tal que, a mayor valor, mayor sea su significacin (biolgica)Pueden ser esquemas sencillos como por ejCoincidencia , S[i]=T[i] 1, No coincidencia,S[i]#T[i] 0,Insercin de espacios (gaps) -1, o bien sistemas ms complejos basados en afinidades qumicas o en frecuencias de emparejamiento observadasSistemas de puntuacin

07/03/2014118

07/03/2014Introduccin a la Bioinformtica119Puntuacin de un alineamentoUna vez establecido un sistema de puntuacin la puntuacin de una pareja de caracteres s,t alineados se define como p(s,t)

La puntuacin (score) de un alineamiento entre S y T

Un alineamiento es ptimo si su puntuacin es la ms grande posible

07/03/2014119

07/03/2014Introduccin a la Bioinformtica120Ejemplo

07/03/2014120

07/03/2014Introduccin a la Bioinformtica121Ejemplo

07/03/2014Introduccin a la Bioinformtica122El sentido de las puntuacionesLos dos alineamientos del ejemplo anterior puntan igual. Sin embargoa) conserva residuos comunes (T,A, P, S)b) conserva residuos menos habituales (W, Y)El sistema de puntuar los emparejamientos entre AA debera reflejar su relacin qumica y biolgicaResiduos similares/distintos deberan puntuar alto/bajo pues el cambiar uno por otro afectar poco/mucho la funcin de la protena

07/03/2014Introduccin a la Bioinformtica123Matrices de puntuacin (scoring) o de sustitucin (sustitution)Una forma usual de definir el sistema de puntuacin es utilizando una matriz de sustitucinEs una tabla que contiene las puntuaciones que asignamos a cada pareja posible (sirve para las coincidencias y las no-coincidencias)El trmino sustitucin refleja que lo que se pretende al puntuar un emparejamiento es valorar el coste evolutivo de cambiar un residuo por otro

07/03/2014123

07/03/2014Introduccin a la Bioinformtica124Matrices para alinear ADNactaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagact

Secuencia 1Secuencia 2AGCTA1000G0100C0010T0001

Match: 1Mismatch: 0Score = 5Matriz identidad P(i,i)=1, P (i,j)=0 o alguna variante P(i,i)=0.9, P (i,j)=-0.1

07/03/2014Introduccin a la Bioinformtica125Sistemas de puntuacin para protenasLos AA tienen distintas propiedades posibilidades distintas de ser sustituidos unos por otros en la evolucionCPGGAVILMFYWHKREQDNSTCSHS+S

positive

charged

polar

aliphatic

aromatic

small

tiny

hydrophobic

07/03/2014Introduccin a la Bioinformtica126Matrices de puntuacin para protenasLas matrices de puntuacin se construyen para que reflejen:El n de mutaciones necesario para convertir una secuencia en otraLa similaridad qumicaLas frecuencias de mutacin observadasLa probabilidad de ocurrencia de cada AA. La ms utilizadas son las PAM y las BLOSUM PAM: Point Accepted Mutation MatrixBLOSUM: BLOcks SUbstitution Matrix

07/03/2014Introduccin a la Bioinformtica127Familias de Matrices de PuntuacinNo hay una matriz nica que se pueda usar siempre.Pero se pueden escoger segn la familia de protenas y grado de similitud esperado.PAMDerivadas de alineamientos globales de secuencias prximasA mayor nmero asumimos que hay n mayor distancia evolutivaMnimo: PAM40 (secs. Similares) Mx: PAM250 (secs distantes) BLOSUMDerivadas de alineamientos locales de secuencias distantesA mayor nmero asumimos que mayor proximidad evolutivaMinimo: BLOSUM90 Maximo: BLOSUM45 (El n representa porcentaje de identifdad)

07/03/2014Introduccin a la Bioinformtica128Matrices de Sustituciones de aminocidosCiertas sustituciones de AA son muy comunes en protenas homlogas. Otras no lo son en absoluto.Esto puede interpretarse como que:Las primeras mantienen la funcin de la protena (existencia de homologa)Las segundas afectan negativamente a su funcin (ausencia de homologa)Las sustituciones inusuales tendrn menor grado de aceptacin por por parte de la seleccin natural.Para poder hacer alineamientos que reflejen el proceso evolutivo que ha llevado a cambiar una secuencia por otra es preciso disponer de estimaciones de la frecuencia con que se produce cada cambio o sustitucin.Para responder a esta necesidad se crearon las matrices de sustitucin.

07/03/2014Introduccin a la Bioinformtica129Modelos probabilsticos para sustituciones entre AAEn la construccin de matrices de sustitucin se utilizaron dos tipos de modelos probabilsticos para las sustituciones.Modelo de homologa: La probabilidad de una substitucin entre dos AA1 y AA2 depende de si se ve favorecida o no por la evolucin.Modelo nulo: La probabilidad de observar una sustitucin depende tan solo de la probabilidad con que se encuentra AA1 y AA2 en la poblacin.

07/03/2014Introduccin a la Bioinformtica130Razn de verosimilitudesLa probabilidad de las substituciones bajo el modelo de homologa se estima a partir de alineamientos entre secuencias de relacin conocida.El valor qij es una estimacin de la probabilidad de la sustitucinLa probabilidad de las sustituciones bajo el modelo nulo se estima simplemente como el producto de las probabilidades de que el aa i sustituya y el aa j sea sustituido.El cociente entre ambas probabilidades nos da una idea de que resulta ms verosmilHay homologa (R > 1, log(R) > 0) Sustitucin al azar (R < 1, log(R) < 0)

07/03/2014Introduccin a la Bioinformtica131Matrices de sustitucin y log-verosimilitudesLas matrices de sustitucin contienen para cada sustitucin el logaritmo de la razn entre la probabilidad de la sustitucin suponiendo homologa o suponiendo que se producen al azar.Si la sustitucin se ve favorecida por la seleccin ser ms probable observarla que lo que seria de esperar del simple azar El cociente ser superior a uno y el logaritmo positivo.Si la sustitucin se ve desfavorecida por la seleccin ser ms plausible observarla por azar que porque se haya conservado evolutivamente El cociente ser menor que uno y el logaritmo negativo. Las sustituciones con valores positivos en las matrices de sustitucin suele corresponderse con AA cuyas propiedades fisico-qumicas son similares.

07/03/2014Introduccin a la Bioinformtica132

Construccin de las matrices PAMDerivadas de alineamientos globales de familias de protenas.Dayhoff et al., 1978 escogieron familias de protenas cuyos miembros presentaran como mnimo un 85% de identidad.Para cada familia se construyeron rboles filogenticosSe calcul el nmero de sustituciones para cada aminocidoEl nmero de sustituciones se utiliz para calcular las matrices PAM-1, que representan aquella situacin en que en promedio ha habido sustituciones en tan slo el 1% de las posiciones.La construccin de matrices para mayores tasas de sustituciones se realiza mediante un modelo de Markov a partir de la matriz PAM-1.PAM250 = 250 mutaciones por 100 residuosCuanto mayor es el nmero estamos suponiendo una mayor distancia entre las secuencias que deseamos alinear.

07/03/2014Introduccin a la Bioinformtica133

A R N D C Q E G H I L K M F P S T W Y V B ZA 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6

PAM 250

C

-8

17

W

W

07/03/2014Introduccin a la Bioinformtica134

Derived from alignments of domains of distantly related proteins (Henikoff & Henikoff,1992).

Occurrences of each amino acid pair in each column of each block alignment is counted.

The numbers derived from all blocks were used to compute the BLOSUM matrices.

AACECA - C = 4A - E = 2C - E = 2A - A = 1C - C = 1

BLOSUM (Blocks Substitution Matrix)

AACEC

07/03/2014Introduccin a la Bioinformtica135BLOSUM (Blocks Substitution Matrix)

Sequences within blocks are clustered according to their level of identity.

Clusters are counted as a single sequence. Different BLOSUM matrices differ in the percentage of sequence identity used in clustering.

The number in the matrix name (e.g. 62 in BLOSUM62) refers to the percentage of sequence identity used to build the matrix. Greater numbers mean smaller evolutionary distance.

07/03/2014Introduccin a la Bioinformtica136TIPS on choosing a scoring matrix

Generally, BLOSUM matrices perform better than PAM matrices for local similarity searches (Henikoff & Henikoff, 1993).

When comparing closely related proteins one should use lower PAM or higher BLOSUM matrices, for distantly related proteins higher PAM or lower BLOSUM matrices.

For database searching the commonly used matrix is BLOSUM62.

07/03/2014Introduccin a la Bioinformtica137Penalizacin por gapsEn un sistema de puntuacin es importante definir el coste de insertar o eliminar un residuo, lo que en el alineamiento aparece como un hueco (gap)Suele penalizarse distinto el primer hueco (gap opening) que los restantes (gap extension) que parten de lLa variacin de estos parmetros puede tener efectos importantes en el alineamiento final

07/03/2014Introduccin a la Bioinformtica138Efecto del valor de la penalizacinCoste de apertura de gapCoste de extensin del gapComentarioGrandeGrandePocas inserciones o eliminacionesBueno para protenas muy relacionadasGrandePequeoAlgunas inserciones grandesBueno si puede que se hayan insertado dominios completosPequeoGrandeMuchas inserciones pequeasBueno si se trata de protenas distantes

07/03/2014Introduccin a la Bioinformtica139Algoritmos de alineamiento ptimo para pares de secuencias

07/03/2014139

07/03/2014Introduccin a la Bioinformtica140Un algoritmo exhaustivo para obtener alineamientos ptimosUn algoritmo para obtener el alineamiento ptimo es:Construir todos los posibles alineamientosCalcular la puntuacin de cada unoEl alineamiento ptimo es el que obtenga el valor ms grande (puede haber ms de uno!)El nmero de alineamientos posibles es muy alto: Si S, T constan de unos 20 caracteres pueden hacer falta ms de 240 operaciones!!!

07/03/2014140

07/03/2014Introduccin a la Bioinformtica141Una alternativa a la bsqueda exhaustiva: La programacin dinmica (PD)La idea bsica de la programacin dinmica es una tcnica de diseo de algoritmos consistente enConsiderar, en primer lugar, los casos ms sencillos de un problema Resolverlos Combinarlos para obtener la solucin de casos ms complicadosHasta resolver el caso completo original

07/03/2014141

07/03/2014Introduccin a la Bioinformtica142Algoritmos de alineamiento ptimoLos dos ms conocidos sonNeedleman y Wunsch (1970) para alineamientos globalesSmith y Waterman (1981), una variante para alineamientos localesSirven para alinear tanto DNA como protenasCada algoritmo retorna los alineamientos con la mxima puntuacin posible para una matriz de substitucin y un coste de gaps dadosEl alineamiento obtenido no tiene necesariamente un significado biolgico

07/03/2014142

Programacin Dinmica (1)143

Algoritmos Voraces vs. P. DinmicaProblema del ascensor (variante del famoso problema de la mochila)Funcin objetivo 1: Maximizar el nmero de personas que transportar el ascensorFuncin objetivo 2: Maximizar el peso que transportar el ascensorDatos: Capacidad del ascensor C=300kgPesos de las personas en espera: 30, 40, 50, 70, 90, 150Criterio voraz 1: Escoger en cada etapa la persona de menor pesoCriterio voraz 2: Escoger en cada etapa la persona de mayor peso144

145

Algoritmos Voraces vs. P. Dinmica

146Algoritmos Voraces vs. P. Dinmica

147Programacin Dinmica (2)

148Programacin Dinmica (3)

149Programacin Dinmica (4)

150Algoritmos Voraces vs. P. Dinmica

151

152Programacin Dinmica (5)

153Programacin Dinmica(6)

154Comparacin de secuencias (7)

155Comparacin de secuencias (8)

156Programacin Dinmica(9)

157Programacin Dinmica(10)

158Programacin Dinmica (11)

159Comparacin de secuencias (12)

160Comparacin de secuencias (13)

161Comparacin de secuencias (14)

162Comparacin de secuencias (15)

163Programacin Dinmica (16)

164Programacin Dinmica (17)

165Programacin Dinmica(18)

166Alineamiento de SecuenciasSe denomina alineamiento de secuencias en bioinformtica al proceso de representar y comparar dos o ms secuencias o cadenas de ADN o ARN para resaltar sus zonas de similitud, con el fin de descubrir relaciones funcionales o evolutivas entre los genes o protenas de donde proceden dichas cadenas. Las secuencias alineadas se escriben con los smbolos (cdigos) de aminocidos o nucletidos en filas de una matriz en las que, si es necesario, se insertan espacios para que las zonas con idntica o similar estructura se alineen.Cuando dos secuencias en un alineamiento comparten un ancestro comn, las no coincidencias pueden interpretarse como mutaciones puntuales y los huecos del alineamiento como mutaciones de insercin o deleccin introducidas en uno o en ambos linajes en el tiempo que transcurri desde que divergieron.

167

Alineamiento de Secuencias

168En secuencias de protenas el grado de similitud entre los aminocidos en posiciones concretas se interpreta como medida de conservacin de una regin particular entre linajes.

La ausencia de sustituciones o presencia de sustituciones muy conservadas tiene importancia estructural o funcional.

De esta forma el alineamiento de secuencias se utiliza para obtener conclusiones de similitud-no similitud entre las secuencias y deducir propiedades, funcionalidades, etc.

Las tcnicas de alineamiento de secuencias tambin pueden utilizarse con otros tipos de secuencias de smbolos y caracteres para identificacin de similitudes en series de letras y palabras del lenguaje humano y tambin en anlisis de datos financieros.Alineamiento de Secuencias

169Representacin de alineamientosSe representan normalmente con un formato grfico y de texto. En casi todas las representaciones de alineamientos se escriben las secuencias en filas de forma que los residuos alineados aparecen en columnas sucesivas, como se muestra en la siguiente figura.

Alineamiento de Secuencias

170Las columnas alineadas contienen caracteres idnticos o similares. Muchos programas de visualizacin de secuencias utilizan tambin esquemas coloreados para mostrar informacin de las propiedades, por ejemplo, en secuencias de ADN y ARN se asigna a cada base su propio color.

Los alineamientos de secuencias pueden almacenarse en una gran variedad de formatos y muchos de estos formatos han sido desarrollados para atender la ejecucin de algn programa de alineamiento por lo que muchas veces el formato est asociado al programa, como el formato FASTA y el GenBank. A veces esto provoca problemas de compatibilidad.Alineamiento de Secuencias

171 Hay tres tipos fundamentales: global, local e hbrido.

Los alineamientos globales intentan alinear cada residuo de cada secuencia. Son ms tiles cuando las secuencias iniciales son similares y aproximadamente del mismo tamao. El algoritmo de Needleman-Wunsch, basado en programacin dinmica, es un ejemplo de estrategia general de alineamiento global basado en Programacin Dinmica Los alineamientos locales son ms tiles para secuencias diferenciadas en las que se sospecha que existen regiones muy similares. El algoritmo de Smith-Waterman es un mtodo general de alineamiento local basado en Programacin DinmicaLos mtodos hbridos tambin son conocidos como semiglobales o glocales intentan encontrar el mejor alineamiento que incluya el inicio y el final de una u otra secuencia. Tipos de alineamiento

172Alineamientos globales: Algoritmo de Needleman-WunschEl algoritmoNeedleman-Wunsch realiza un alineamiento global de dos secuencias (aqu llamadas A y B). Usado en bioinformtica para alinear secuencias de nucletidos o protenas. Fue propuesto en 1970 por Saul Needleman y Christian Wunsch en el artculo A general method applicable to the search for similarities in the amino acid sequence of two proteins, J Mol Biol.48(3):443-53.

El algoritmoNeedlemanWunsch es un ejemplo deprogramacin dinmica, y est garantizado que encuentra el alineamiento con la puntuacin mxima. NeedlemanWunsch fue la primera aplicacin de programacin dinmica para la comparacin de secuencias biolgicas.

173La puntuacin para caracteres alineados est especificada por unamatriz de similitud S(i,j) cuyos valores denotan la similitud de los caracteres i y j de las respectivas secuencias en comparacin. Esta usa una penalidad por hueco (gap) lineal, aqu llamada d. Por ejemplo, si la matriz de similitud es:

Entonces el alineamiento es:A G A C T A G T T A CC G A - - - G A C G TAlineamientos globales: Algoritmo de Needleman-Wunsch

174A G A C T A G T T A CC G A - - - G A C G T

Con una penalidad por hueco de -5, tendramos la siguiente puntuacin:

Alineamientos globales: Algoritmo de Needleman-Wunsch

175Para encontrar el alineamiento con ms puntuacin se utilizan matrices bidimensionales. En la matriz bidimensional F hay una columna por cada carcter de lasecuencia A, y una fila para cada carcter de lasecuencia B.

As si estamos alineando secuencias de tamaos n y m, el tiempo de ejecucin del algoritmo es proporcional a la dimensin de la matriz F, es decir, de orden O(nxm) y la cantidad de memoria utilizada tambin es del mismo orden O(nxm).Sin embargo hay una versin modificada del algoritmo que usa soloO(n+m) espacio, al costo de un tiempo de ejecucin ms grande.

Esta modificacin es de hecho una tcnica general que aplicamos a muchos algoritmos de programacin dinmica; este mtodo fue introducido en elalgoritmo de Hirschberg para resolver el problema de la subsecuencia comn ms larga.Alineamientos globales: Algoritmo de Needleman-Wunsch

176Cuando el algoritmo progresa,el elemento Fij de la matriz puede ser asignado para ser la puntuacin ptima para el alineamiento de los primeros i caracteres en A y los primeros j caracteres en B. El principio de optimizacin es entonces aplicado como se describe mediante las ecuaciones recurrentes: F(0,j) =d *jF(i,0) =d *iF(i,j) = max(F(i 1,j 1) +S(Ai 1,Bj 1),F(i,j 1) +d,F(i 1,j) +d)Alineamientos globales: Algoritmo de Needleman-Wunsch

177El pseudo-cdigo del algoritmo que calcula la matriz A es el siguiente:for i=0a long(A)-1F(i,0) d*ifor j=0a long(B)-1F(0,j) d*jfor i=1a long(A)for j = 1a long(B){Eleccin1 F(i-1,j-1) + S(A(i-1), B(j-1))Eleccin2 F(i-1, j) + dEleccin3 F(i, j-1) + dF(i,j) max(Eleccin1, Eleccin2, Eleccin3)}Alineamientos globales: Algoritmo de Needleman-Wunsch

178Una vez que la matriz F est calculada, la puntuacin mxima para cualquier alineamiento se encuentra en la esquina inferior derecha de la matriz. Para calcular cul es el alineamiento que produce esa puntuacin, empezando desde la celda que se encuentra al fondo a la derecha, y comparar el valor con las tres posibles fuentes (Eleccin1, Eleccin2, Eleccin3) para ver de donde proviene.Si era Eleccin1, entonces A(i) y B(i) estn alineadas, si era Eleccin2 entonces A(i) est alineado con un gap, y si era Eleccin3, entonces B(i) est alineada con un gap.Alineamientos globales: Algoritmo de Needleman-Wunsch

179AlineamientoA AlineamientoB i long(A)j long(B)while (i > 0 AND j > 0){Score F(i,j)ScoreDiag F(i 1, j 1)ScoreUp F(i, j 1)ScoreLeft F(i 1, j)if (Score == ScoreDiag + S(A(i-1), B(j-1))){AlineamientoA A(i-1) + AlineamientoAAlineamientoB B(j-1) + AlineamientoBi i 1j j 1}else if (Score == ScoreLeft + d){AlineamientoA A(i-1) + AlineamientoAAlineamientoB - + AlineamientoBi i 1}

otherwise (Score == ScoreUp + d){AlineamientoA - + AlineamientoAAlineamientoB B(j-1) + AlineamientoBj j 1}}while (i > 0){AlineamientoA A(i-1) + AlineamientoAAlineamientoB - + AlineamientoBi 0){AlineamientoA - + AlineamientoAAlineamientoB B(j-1) + AlineamientoBj j 1}Alineamientos globales: Algoritmo de Needleman-Wunsch

180Alineamientos locales: Algoritmo Smith-WatermanEl algoritmoSmith-Waterman es un famoso algoritmo para realizar alineamientos locales de secuencias; esto es, determinar regiones similares entre dos secuencias de nucletidos o protenas.

El algoritmo fue propuesto por Temple Smith y Michael Waterman en 1981. Como el algoritmoNeedleman-Wunsch, del cual es una variacin, Smith-Waterman es un algoritmo deprogramacin dinmica.

Como tal, posee la atractiva propiedad que garantiza encontrar elalineamiento local ptimo con respecto al sistema de puntaje que est siendo utilizado (que incluye la matriz de sustitucin y el plan de puntaje con interrupciones).

La principal diferencia con el algoritmo Needleman-Wunsch es que las celdas negativas de las matrices de puntuacin se inicializan a cero, lo cual hace que los alineamientos locales sean visibles.

181

El retroceso comienza en la celda de la matriz con el puntaje ms alto y continua hasta que una celda con puntaje cero es encontrada, proporcionando el puntaje ms alto para el alineamiento local.

Una motivacin para alineamientos locales es la dificultad para obtener alineamientos correctos enregiones de baja similitud entre secuencias biolgicas lejanamente emparentadas, porque las mutaciones agregaron mucho ruido con la evolucin para permitir una comparacin significativa de estas regiones.

Los alineamientos localesevitan estas regiones completamente y se concentran en aquellas con un puntaje positivo, por ejemplo, aquellas con seales de similitud conservadas por la evolucin. Una prerrequisito para alineamientos locales es una expectativa de puntaje negativo. La expectativa de puntaje es definida como el puntaje promedio que el sistema de puntaje (matriz de sustitucin y penalidades por huecos) puede proporcionar para una secuencia aleatoria.

Alineamientos locales: Algoritmo Smith-Waterman

182Otro motivo para usar alineamientos locales es que existe unmodelo estadstico confiable (desarrollado por Karlin y Altschul) para alineamientos locales ptimos. El alineamiento de secuencias no relacionadas tiende a producir puntajes de alineamiento local ptimos que siguen una distribucin de valores extrema. Esta propiedad permite a los programas producir un valor esperado para el alineamiento ptimo de dos secuencias, el cual es una medida de la frecuencia con que dos secuencias podran producir un alineamiento ptimo cuyo puntaje es mayor o igual al puntaje observado.

Valores muy bajos de expectativa indican que las dos secuencias pueden serhomlogas, lo que significa quepodran tener un ancestro en comn.

Sin embargo, el algoritmo Smith-Waterman esbastante demandante de recursos de tiempo y memoria: para alinear dos secuencias de longitudes m y n, el tiempo y el espacio requerido sonO(mxn). Como resultado, en la prctica es remplazado principalmente por el algoritmoBLAST que si bien no garantiza encontrar los alineamientos ptimos, es mucho ms eficiente.Alineamientos locales: Algoritmo Smith-Waterman

Tema 4. Bases de datos en Bioinformtica

Introduccin a la Bioinformtica184ContenidosLa bioinformtica y las bases de datosLas bases de datos en biologa molecularFormato de la informacin almacenadaHerramientas de bsqueda

Introduccin a la Bioinformtica185Informacin en la era genmicaEl proyecto genoma humano y similares genera un inmenso flujo de informacinPara poder utilizar esta informacin, ha de estar almacenada correctamenteEl acceso a la informacin almacenada ...Ha de ser rpidoDebe poder hacerse de manera flexibleEsto es posible gracias a la creacin de bases de datos y distribucin va Internet.

185

Introduccin a la Bioinformtica186Para qu se utilizan las bases de datos ?Bsqueda de informacin. Por palabra clave, nmeros de acceso, autores...Bsqueda de homologasHay secuencias igual o parecidas a la ma ?Bsqueda de patronesMi secuencia contienen patrones conocidos?PrediccionesPuedo encontrar protenas parecidas a la ma, pero con funcin conocida?

Introduccin a la Bioinformtica187Aspectos a tener en cuentaLos proveedores de recursosCentros o organizaciones especializadas en tener y mantener las bases de datos. Bases de datosHay mucha variedad y contiene informacin diversaLas herramientasPara encontrar informacin en las BDPara contrastar secuencias contra las BDPara exportar la informacin

Introduccin a la Bioinformtica188Principales proveedores de recursosEl National Center for Biotechnology Information (NCBI) centraliza los bancos de datos y aplicacions de EEUUEl European Bioinformatics Institute (EBI) realiza una funcin similar en EuropaGenomeNet reune bases de datos diversas en Japn

Introduccin a la Bioinformtica189Tipos de bases de datosExisten cientos de BD en nmero tan elevado que no es prctico enumerarlas (aunque aqu lo intentan)Por el tipo de informacin que contienen distinguimosBases de datos bibliogrficasBases de datos taxonmicas Bases de datos de nucletidosBases de datos genmicasBases de datos de proteinasBases de datos de microarrays

Introduccin a la Bioinformtica190Bases de datos bibliogrficasOrganizacin de los artculos publicados en la revistas de mbito cientfico.Pubmed (NCBI)Medline (EBI)Biocatalog: organizacin de los artculos por temticas concretas de biologa molecular.

Introduccin a la Bioinformtica191Bases de datos taxonmicasSon BD que contienen informacin sobre la clasificacin de los seres vivosEsta clasificacin es bsicamente jerrquica y basada en informacin molecularPretende clasificar cualquier organismo del que se posea como mnimo una secuencia de acidos nuclicosComo puede suponerse el proyecto no est libre de controversia debido a las visiones diferentes que existen en la comunidad taxonmica

Introduccin a la Bioinformtica192Bases de datos de nucletidosLas bases de datos de cidos nucleicos reciben las secuencias de los laboratorios experimentales y las organizan hacindolas accesibles a diario a toda la comunidad cientficaExisten varias BD que intercambian diariamente su contenidoGenbank (NCBI)EMBL (EBI)KEGG (Genome net)

Introduccin a la Bioinformtica193Bases de datos de genomasSe encargan de mantener y actualizar las secuencias y las anotaciones de genomas completos.Ensembl (EBI)Genome viewer (NCBI)Goldenpath (UCSC)Existen tambin recursos genmicos especializadosTransfact: sitios de unin a factores de transcripcin.EST: Expressed Sequence TagsUTRDB: Untranslated regionsSpliceSitesDB: Pares de seales de splicing

Introduccin a la Bioinformtica194Bases de datos de protenasSecuencias primarias de aminocidosSin revisin humanaTrembl (EBI)nr (NCBI)Con revisin de la anotacinSwisprot (EBI)Bases de datos de proteomasProteome analysis (EBI)

Introduccin a la Bioinformtica195Protenas (II)Estructuras secundarias o dominios. Varan segn la fuente de las protenas y el anlisis que se realiza sobre ellas.BLOCKS: Motivos alineados de PROSITE/PRINTSPROSITE: Expresiones regulares sobre Swiss-prot PRINTS: Conjunto de motivos que definen una familia sobre Swiss-prot/TrEMBLPFAM: Modelos de Markov sobre Swiss-protINTERPRO: Integra la informacin de muchas bases de datos de dominios.

Introduccin a la Bioinformtica196Protenas (III)Estructuras tridimensionales de macromolculas con las coordenadas en el espacio de cada tomo.PDB: Base de datos principal de estructuras tridimensionalesCATH: Clasificacin de PDB en diferentes grupos funcionales y estructuralesMMDB: subset de PDB mantenido por NCBIMSD: subset de PDB mantenido por EBI

Introduccin a la Bioinformtica197Bases de datos de microarrays Bases de datos con las imgenes y resultados obtenidos por arrays de expresin.ArrayExpress (EBI)Riken Expression Array DatabaseEisen Laboratory (Lawrence Berkeley National Lab)

Introduccin a la Bioinformtica198Estructura de las BDLa calidad de la informacin en una base de datos, est muy relacionada con su estructuraEste aspecto tambin es crucial para su eficiencia y accesibilidad .En la actualidad no existe ningn formato nico y estndar, usualmente cada base de datos impone su propio formato.

Introduccin a la Bioinformtica199Ejemplo entrada Genbank

Introduccin a la Bioinformtica200Ejemplo entrada EMBL

Introduccin a la Bioinformtica201Informacin sobre los formatos de las bases de datos

Introduccin a la BioinformticaHerramientas de bsqueda en bases de datosSRS y Entrez

Introduccin a la BioinformticaHerramientas de bsqueda en las Bases de Datos La extraccin de informacinSRS Inicio y bsqueda rpidaBusquedas mejoradasVisualizacin de los resultadosEnlaces a otras bases de datos

Introduccin a la BioinformticaExtraccin de informacinLa bsqueda y extraccin de informacin de las BD se realiza con herramientas especficas como SRS o EntrezSuelen estar asociadas a los bancos de datosNCBI : EntrezEBI: SRSEvolucionan muy rpidamente pasando a incorporar las caractersticas que los diferenciaban en anteriores versiones:La ltima versin de SRS incorpora un extenso acceso a PubMed como haca la anterior de Entrez

Introduccin a la BioinformticaSRSSequence Retrieval System Es el sistema de recuperacin de la informacin disponible en el EBIDispone de muchas posibilidades por lo que se puede trabajar de formas diversasHaciendo click aqu se accede a tutoriales de distinto nivel en el EBI

Introduccin a la BioinformticaInicio de sesinTras iniciar la sesin se accede a la pgina principal Top PageDesde esta pgina es posibleSeleccionar la base de datos donde buscarPuede seleccionarse todo (all), uno o ms bancos (SWALL, EMBL,) o subconjuntos de estos (TrEMBL,)Realizar consultas sencillas (Quick search) mediante un solo trmino

Introduccin a la BioinformticaInicio de SRS y bsqueda rpida:

Introduccin a la BioinformticaBsqueda estndarMs completaPermite combinar campos y trminosElegir Standard QueryIntroducir trminos de bsquedaSeleccionar campos donde buscarCombinar con AND / ORSeleccionar formato de salidaEn vez de la anterior se puede, p.ej. buscar Description = Prion AND Organism = BovinPasamos a obtener 10 resultados

Introduccin a la BioinformticaBsqueda estndar: Entrada

Introduccin a la BioinformticaBsqueda estndar: resultados

Introduccin a la BioinformticaVisualizacin de los resultadosHaciendo doble click sobre los resultados se accede a la informacin contenida en la BD de donde procedeEs posible visualizar los resultados en distintos formatosSi, por ejemplo, deseamos proseguir con los anlisis podemos obtener la secuencia en formato FASTA seleccionando FastaSeq en el men View

Introduccin a la BioinformticaResultados en formato FASTA

Introduccin a la BioinformticaEjemplos de bsquedas estndar

Introduccin a la BioinformticaEjemplos de bsquedas complejas

Introduccin a la BioinformticaBusqueda extendidaSi se desea precisar an ms la bsquedaPor un rango de fechas determinadoPor la longitud de la secuenciaPuede realizarse mediante Extended queryPor ejemplo se desea averiguar cuantas secuencias de tamao superior a 200 AA se depositaron el ao 2000?

Introduccin a la BioinformticaBsquedas extendidas (1): Fechas

Introduccin a la BioinformticaBsquedas extendidas (2): Tamaos

Introduccin a la BioinformticaCombinacin de resultadosEn ocasiones puede ser conveniente combinar varias consultasPor ejemplo si se desea utilizar operadores distintos entre las partes de la consulta (A y B) o (C y D) pero no EPuede hacerse seleccionando la pgina Results y en ella marcarLas consultas que se desea combinarLos operadores que se desea emplear

Introduccin a la BioinformticaVisualizacin de los resultados (2)Podemos variar la formas de visualizar los resultados mediante las vistasLa vista estndar muestra tan slo un listado de los hallazgosPodemos seleccionar que campos deseamos que aparezcan, de forma que accedamos ms rpidamente a la informacin que nos interesa

Introduccin a la BioinformticaAnlisis de los resultadosEl objetivo usual de realizar bsquedas es realizar algn tipo de anlisis con las secuencias halladasAlunos anlisis habituales pueden lanzarse directamente desde la pantalla de resultadosBlastN, NFASTA, Clustalw

Introduccin a la BioinformticaEnlaces a otras bases de datosEs posible enlazar varias bases de datos de forma que una vez efectuada una consulta, se acceda a la BD enlazada para visualizar los resultados de la consultaEnlazando SWISSPROT con PDB es posible visualizar las estructuras moleculares de las protenas que hemos hallado en una consultaSi buscamos hydrogenase en SWISSPROT hallamos 970 entradasSi enlazamos con PDB veremos que se dispone de la estructura 3D (en PDB) de 31 de las anteriores

222Anexo 1: El formato FASTA

223Especificacin FASTA del NCBI>identificador |descriptor ^A para varias cabeceras

Estos datos se guardan en archivos con extensin .fa, .mpfa, .fna, .fas, .fasta, etc.Existen herramientas para convertir y transformar formatos:FASTA to multi-FASTA converterMulti-FASTA to FASTA converterhttp://www.dnabaser.com/download/Multi-FASTA%20spliter/index.html

224

El formato puede complicarse mucho con el aadido de otros parmetros y bloques de cabecera (ejemplo con Swiss-Prot)

225Anlisis de datos: AgrupamientoProcesos:Transcripcin: interacciones que activan copiasSplicing: se produce el RNA mensajero (mRNA)Traduccin: se sintetiza la cadena de aminocidosPrediccin de genes:Sinttica: Se deduce la secuencia de aminocidos codificada en una cadena de DNA genmico generando modelos computacionales para reproducir el mecanismo biolgico que ocurre en la clula.En genomas procariotasEn genomas eucariotas (ms complejo)

Bioinformtica226

Diferencias entre genes de organismos procariotas y eucariotas.

Introduccin a la Bioinformtica227Informacin utilizada para encontrar genes: Bsqueda de seales. La maquinaria celular reconoce secuencias mas o menos conservadas en el DNA genmico.Estadsticos codificantes. Las regiones codificantes tienen propiedades estadsticamente diferentes a las regiones no codificantes.Uso de homologa. La similaridad con secuencias conocidas es un indicativo de que esa regin pueda contener un gen homlogo.

Bioinformtica228Estadsticos codificantesEl DNA codificante tiene una composicin de nucletidos diferente al resto de DNA genmico, debido a que ha de codificar para protenas (es menos aleatorio).

Estadstico codificante: es una funcin que dada una secuencia de DNA, nos devuelve un nmero relacionado con la probabilidad de que esa secuencia corresponda a una regin codificante.

Introduccin a la Bioinformtica229Uso de homologaAlgunos programas de prediccin de genes permiten el uso de homologas con secuencias conocidas para mejorar las predicciones.Estas homologas las podemos encontrar en:Protenas de otras especies.Fragmentos genmicos que sabemos que se transcriben (ESTs o cDNAs)Comparacin de genomas completos.

Prediccin de genesPrediccin sinttica: se deduce la secuencia de aminocidos codificada en una cadena de ADN genmico generando modelos computacionales que reproduzcan el mecanismo biolgico de las clulas.Prediccin en genomas procariotas y eucariotas

Clulas Eucariotas: animales, plantas y hongosClulas Procariotas: bacterias, moneras y esquizofitosProceso de splicing:Splicing de ARN: Es un proceso co-transcripcional de corte y empalme de ARN. Este proceso es muy comn en eucariotas, pudindose dar en cualquier tipo de ARN aunque es ms comn en el ARNm. Tambin se ha descrito en el ARNr y ARNt de procariotas y bacterifagos.Splicing de protenas: Es un proceso post-traduccional de corte y empalme de una protena precursora. Este proceso conlleva la eliminacin de una secuencia de aminocidos de la cadena polipeptdica para originar una protena madura.Splicing de ADN: Proceso que consiste en la unin covalente de dos fragmentos de ADN bicatenario, catalizado por una ligasa de ADN..Los exones son las regiones de un gen que no son separadas durante el proceso de splicing y, por tanto, se mantienen en el ARN mensajero maduro. En los genes que codifican una protena, son los exones los que contienen la informacin para producir la protena codificada en el gen. En estos casos, cada exn codifica una porcin especfica de la protena completa, de manera que el conjunto de exones forma la regin codificante del gen. En eucariotas los exones de un gen estn separados por regiones largas de ADN (llamadas intrones) que no codifican.230

Modelizar la informacin biolgicaInformacin utilizada para encontrar genes:Bsqueda de seales. La maquinaria celular reconoce secuencias ms o menos conservadas en el DNA genmico.Estadsticos codificantes. Las regiones codificantes tienen propiedades estadsticamente diferentes a las regiones no codificantes.Uso de homologa. La similaridad con secuencias conocidas es un indicativo de que esa regin pueda contener un gen homlogo.

Introduccin a la Bioinformtica232Estadsticos codificantesEl DNA codificante tiene una composicin de nucletidos diferente al resto de DNA genmico, debido a que ha de codificar para protenas (es menos aleatorio).

Estadstico codificante: es una funcin que dada una secuencia de DNA, nos devuelve un nmero relacionado (estimador) con la probabilidad de que esa secuencia corresponda a una regin codificante.

Introduccin a la Bioinformtica233Uso de homologaAlgunos programas de prediccin de genes permiten el uso de homologas con secuencias conocidas para mejorar las predicciones.Estas homologas las podemos encontrar en:Protenas de otras especies.Fragmentos genmicos que sabemos que se transcriben (ESTs o cDNAs)Comparacin de genomas completos. Geneid es un programa de prediccin de genes que integra la informacin

Introduccin a la Bioinformtica234geneid como ejemplo de programa de prediccin de genes.

Estructura jerrquica :seales - exones - genes

Integrando la informacin

Exones y nucletidosLos exones son las regiones de un gen que no son separadas durante el proceso de splicing y, por tanto, se mantienen en el ARN mensajero maduro. En los genes que codifican una protena, son los exones los que contienen la informacin para producir la protena codificada en el gen. En estos casos, cada exn codifica una porcin especfica de la protena completa, de manera que el conjunto de exones forma la regin codificante del gen. En eucariotas los exones de un gen estn separados por regiones largas de ADN (llamadas intrones) que no codifican.

235

Introduccin a la Bioinformtica236Fiabilidad de los programas de prediccin de genesNecesitamos un conjunto de genes conocidos para validar las predicciones.Conceptos bsicos para medir la fiabilidad:Sensibilidad: proporcin de genes reales que han sido predichos.Especificidad: proporcin de predicciones que corresponden con la realidad.

Sensibilidad y especificidad (estadstica)

Dado un estimador para una variable estadstica discreta binaria se definen:La sensibilidad nos indica la capacidad de nuestro estimador para dar como casos positivos los casos realmente enfermos; proporcin de enfermos correctamente identificados. Es decir, la sensibilidad caracteriza la capacidad de la prueba para detectar la enfermedad en sujetos enfermos.La especificidad nos indica la capacidad de nuestro estimador para dar como casos negativos los casos realmente sanos; proporcin de sanos correctamente identificados. Es decir, la especificidad caracteriza la capacidad de la prueba para detectar la ausencia de la enfermedad en sujetos sanos.

donde VP es verdaderos positivos y FN falsos negativos.La especificidad de una prueba representa la estimacin de la probabilidad de que un sujeto sano tenga un resultado negativo en la prueba (VN, seran los verdaderos negativos; y FP, los falsos positivos).La sensibilidad es la fraccin de verdaderos positivos y la especificidad la fraccin de verdaderos negativos (FVN)Cada prueba tendr mayor o menos porcentaje tanto en especificidad (SP) como en sensibilidad (SE) dependiendo de su punto de corte.

Introduccin a la Bioinformtica238

Anlisis de la fiabilidad: sensibilidad y especificidad

Introduccin a la Bioinformtica239Ejemplo GASP1: genome annotation assessment projectEl objetivo de este proyecto fue estudiar la eficiencia de los programas de prediccin de genes en una regin de 2.9 Mb del genoma de Droshophila Melanogaster (mosca pequea).Las predicciones fueron comparadas en base a los resultados de un profundo estudio experimental (2 aos recopilando cDNAs) que no fueron revelados hasta el final de la evaluacin.

Introduccin a la Bioinformtica240Resultados del GASP1

Introduccin a la Bioinformtica241Resultados del GASP1

Introduccin a la Bioinformtica242Conclusiones del GASP1Las predicciones cubren un 95% del proteoma.La prediccin a nivel de nucletido mejor que a nivel de exn.Muy baja proporcin de genes correctamente predichos.Mtodos optimizados para una especie funcionan mejor. Ningn programa es perfecto.

Expresin GenticaLaexpresin gnicaes el proceso por medio del cual todos los organismosprocariotasyeucariotastransforman la informacin codificada en loscidos nucleicosen lasprotenasnecesarias para su desarrollo y funcionamiento. En todos los organismos, inclusive los eucariotas, el contenido delADNde todas sus clulas es idntico. Esto quiere decir que contienen toda la informacin necesaria para la sntesis de todas las protenas. Pero no todos losgenesse expresan al mismo tiempo ni en todas lasclulas.Hay slo un grupo de genes que se expresan en todas las clulas del organismo y codifican protenas que son esenciales para el funcionamiento general de las clulas y son conocidos como genes constitutivos (en ingls,housekeeping genes). En los diferentes tipos de clulas, los dems genes se expresan o no dependiendo de la funcin de la clula en un tejido particular.

Anlisis de Datos de MicroarraysMtodos estadsticos para detectar la diferenciacin entre genes expresados.UnChip de ADN(del ingls DNA microarray) es una superficie slida a la cual se une una coleccin de fragmentos deADN. Las superficies empleadas para fijar el ADN son muy variables y pueden ser de vidrio, plstico e incluso de silicio. Los chips de ADN se usan para analizar laexpresindiferencial de genes, monitorizndose los niveles de miles de ellos de forma simultnea. Su funcionamiento consiste, bsicamente, en medir el nivel dehibridacinentre la sonda especfica (probe, en ingls), y la molcula diana (target), indicndose generalmente mediantefluorescenciay analizndose por anlisis de imagen, lo cual nos indicar el nivel de expresin delgen.Suelen utilizarse para identificar genes con una expresin diferencial bajo condiciones distintas. Por ejemplo, para detectar genes que producen ciertasenfermedadesmediante la comparacin de los niveles de expresin entreclulassanas y clulas que estn desarrollando ciertos tipos de enfermedades.

244

Ejemplo de un chip de ADN con 40000 sondas

245

MicroarraysEn Bioinformtica246

Microarrays247

Microarrays248

249Microarrays

Microarrays250

07/03/2014Introduccin a la Bioinformtica251ANEXOS

252ANEXO 1: Matrices de Sustitucin

IntroduccinMatrices PAMEjemplo de Matriz PAMMatrices BLOSUMEjemplo de Matriz BLOSUM ReferenciasMatrices de SustitucinPAM Y BLOSUM

INTRODUCCIN Una matriz de sustitucin se elabora bajo una teora de evolucin.El resultado de la comparacin de dos o ms secuencias depende fuertemente de la matriz de sustitucin que se haya seleccionado.Las matrices de sustitucin son utilizadas en los anlisis comparativos de secuencias.Los algoritmos de alineamiento (comparacin ) funcionan igual con una matriz de distancias o con una matriz de sustitucin (aunque se pueden obtener diferentes resultados). Una matriz de distancias es muy til en la reconstruccin de un rbol filogentico, mientras que una matriz de sustitucin es utilizada para realizar busqueda en bases de datos.

En biologa evolutiva una matriz de sustitucin, o de puntuacin, describe el ritmo al que un carcter en una secuencia cambia a otro carcter con el tiempo

Tipos de matrices X matriz nica para uso siempre.

Familia de protenas + grado de similitud >.

Las ms utilizadas.

PAM: Percent Accepted Mutation Matrix Alineamientos globales de secuencias cercanamente relacionadas. PAM40 PAM250.: > N = > distancia evolutiva

BLOSUM Alineamientos locales de secuencias distantes BLOSUM90 BLOSUM45 El N = % de identidad

La cuestin era observar qu sustituciones ocurrian entre protenas homlogas en un tiempo evolutivo.PAM = cambio de aa x otro que ha sido "aceptado" por la seleccin natural (SN).

Los cambios ms aceptados por la SN son los de tipoconservativo, ej. isoleucina por valina (hidrofbicos y detamao similar).Permite relacionar familias de protenas por su distanciaevolutiva. MATRICES PAM (Percent Accepted Mutations)

MATRICES PAM (Percent Accepted Mutations)Las matrices dan los cambios esperados para un periodo de tiempo evolutivo, la similaridad de la secuencia decrece como los genes que codifican la misma protena divergen con el incremento del tiempo evolutivo.

Una unidad PAM es una medida arbitraria de divergencia evolutiva en la que se asume que el 1% de los aminocidos han cambiado entre dos protenas.

De acuerdo a la regin a alinear:

Local (sub regin de la secuencia)Global (secuencia completa)

PAMBLOSUM

259

MATRIZ PAM N sustituciones aa. = matriz PAM-1.

La matriz PAM-1 = variacin media 1% posiciones aa .

Las matrices PAM para grandes distancias evolutivas puede extrapolarse a partir de la matriz PAM-1.

PAM250 = 250 mutaciones por 100 residuos.

> N = > distancia evolutiva

Como fueron construidas ???

1. Alineamientoalienaron 1572 secuencias de 71 protenas diferentes

2. rbol filogentico

3. Mutaciones Aceptadasse calcul la tasa de Mutaciones Aceptadas por la seleccin natural (Aij las veces que i cambia a j en todas las comparaciones)

las secuencias se comparan por pares y los cambios encontrados se presumen que se han presentado por seleccin natural.

4. Mutacin.calcularon la mutabilidad de cada aminocido, la tendencia del aminocido j a ser sustituido, mj

Es la propensin que dado un aminocido j sea reemplazado por cualquier otro aminocido

5. Matriz de probabilidad de mutacin PAM 1 (es decir 1 cambio en 100 aminocidos) con las siguientes formulas

Propiedades de una matriz de probabilidad de mutacin:

La matriz M1 establece una unidad de cambio evolutivo.

Aplicaciones sucesivas de una matriz M1 a una secuencia produce matrices M2, M3, ..., Mn.

Los elementos de la matriz PAM 0 son 1 para Mii y 0 para Mij.

La PAM 1 acepta una mutacin cada 100 aminocidosEn general, k unidades de evolucin = M k

Los datos fueron multiplicados por 10,000 para facilitar la presentacin

6. Matriz log odds posteriormente se calcul la matriz log odds tomando los resultados del punto anterior y aplicando la siguiente manera: se divide cada elemento de la matriz PAM 1 entre la ocurrencia del residuo residuo

donde fi es la frecuencia de i,y por ltimo se calcul el logaritmo de cada Rij para obtener Sij

TIPS i -> j = j -> i Porque para dos secuencias cualquiera, el a.a ancestro en el rbol filogentico no es conocido usualmente.(Mount 78)

Odds score : Cociente de cambio de substitucin de un amino cido.Permite determinar si las secuencias :Variacin evolutiva autenticaSecuencias aleatorias con ninguna significancia biolgica.

El modelo de Darhoff es un proceso de Markov.

Calculo para obtener el Log odds score por cambios entre Phe y Try en una PAM 250

Calculamos la frecuencia de cambio de F x Y 0.0021.Calculamos los valores de PAM250.En PAM250 el valor de frecuencia de F x Y es 0.15.Para construir nuestra MDM. 0.15/0.04 =3.75 Log(3.75) = 0.570.57 x 10 =5.7

De la misma forma para Y x F.0.20/0.03 = 6.7 Log(6.7) = 0.830.83 x 10 = 8.3

Calculamos el promedio de 5.7 y 8.3 = 7

MDM Mutation Data Matrix

7. PAMnPara obtener matrices PAM de mayor distancia (por ejemplo PAM 100) se multiplica por si misma el nmero de veces que sea requiera (en el ejemplo 100 veces.), antes de calcular su log odds, despus del paso 6 pero antes del 7

Calcular la matriz "Log Odds" de similaridad: Se divide cada elemento de la Matriz de probabilidad de Mutacin (M), entre la frecuencia de occurrencia de cada aminocido:

Rij = Mij/fi Donde:R es la matriz "Relatedness Odds".fi es la frecuencia del aminocido i.La Matriz "Log Odds" (S) se calcula a partir de la matriz "Relatedness Odds" (R) de la siguiente forma:S ij = Log (Rij)

A BNDCQEGHILKMFPSTWYVA (Ala)1369958912686774111111249R (Arg)317432532632941443722N (Asn)44672564632532454233D (Asp)5481117105632531455123C (Cys)211152112221111232142Q (Gln)355611073723531433123E (Glu)5471119125632531455123G (Gly)1251010479275546538119237H (His)255427421522322332232I (Ile)322222222106265234139L (Leu)6443264351534420135466713K (Lys)618108210858542492688435M (Met)11110111123262111112F (Phe)2121111135614321224203P (Pro)755435455334322065124S (Ser)968776796547539109446T (Thr)856645564646536811236W (Trp)020000001010010105510Y (Tyr)1121311132212151223312V (Val)7444444454151041055572417

PAM250

Seleccin de PAMObjetivo.Detectar similaridad de secuencias.Premisa: El score de alineamiento sin gaps puede ser ms alto, cuando se usa una matrz correcta

Base. Homologa de protenas (Distancia evolutiva)

PAM 1: 1 mutacin cada 100aa

PAM 200 : 25% similaridadPAM120 : 40% similaridadPAM80 : 50% similaridadPAM60 : 60% similaridad

La PAM1 por ejemplo es la matriz calculada a partir de comparaciones de secuencias con no ms del 1% de divergencia . Otras matrices PAM fueron extrapoladas a partir de PAM1.

PAM70

A R N D C Q E G H I L K M F P S T W Y V B ZA 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -