el informe

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOSUniversidad del Perú, DECANA DE AMERICA

FACULTAD DE CIENCIAS BIOLOGICASEscuela Académica Profesional: Ciencias Biológicas

LABORATORIO DE BIOLOGIA MOLECULAR

PRÁCTICA Nº 1ANALISIS BIOINFORMATICO DE SECUENCIAS PROTEICAS

Integrantes:

14100018……………..Luis Fernando Valverde Damian14100072……………..Karen Anais santisteban obregón14100057…………….Jhosselyn Estrella Marín Muños14100061…………….Benyi Mory Soto

Introducción

La Biología es una disciplina académica que abarca un amplio de campos de estudio, y como toda ciencia de la mano con los diversos avances tecnológicos va renovando sus conceptos. En los últimos años ha crecido a pasos agigantados en el estudio de los seres vivos a toda escala. Entre al abanico de posibilidades que conlleva el estudio de los seres vivos podemos encontrar a la Bioinformática, basándose esta en es el uso de herramientas computacionales que permiten analizar, depurar y agilizar el manejo de grandes cantidades de datos de la biología en términos fisicoquímicos y permitir comprender y organizar la información asociada. La bioinformática parte de datos encontrados experimentalmente, los cuales son almacenados y sobre estos se aplican técnicas de consulta, de análisis y de extracción de conocimiento.

Esta disciplina surgió en la segunda mitad del siglo XX, para la comprensión de los mecanismos moleculares que son la base de la conducta de los seres vivos, y la manera en cómo se relacionan entre ellos, ya que son datos de fácil acceso posibilitan la proliferación del conocimiento para uso práctico de cualquier persona interesada en este tema pues solo se requiere de internet, interés y curiosidad.

Hacia 1960 los científicos mediante un arduo trabajo de laboratorio lograron obtener una buena cantidad de características químicas de las proteínas, este conocimiento no podía quedar atrapado en las cuatro paredes del laboratorio y publicarlo en papers no lograría la correcta comprensión de ello, es por esto que deciden combinar sus conocimientos en computación, estadística, matemáticas y biología molecular para crear algoritmos que les permita introducir todo este conocimiento en bases de datos las cuales con el posterior desarrollo masivo del servicio de internet podrían estar al alcance de todo el mundo.

Algunas de las bases de datos primarios producto del objetivo de esta disciplina son el GenBank establecido en 1979 por Walter Goad de Los Alamos National Laboratory cuyo propósito fue colectar y almacenar todas las secuencias de nucleótidos conocidas y sus traducciones en una forma fácil de buscar, la PDB depositaria de las estructuras tridimensionales de proteínas, polinucleótidos y otras macromoléculas biológicas establecida en 1971 por Edgar Meyer y Walter Hamilton de los Brookhaven National Laboratories. En 1998 la responsabilidad de la PDB se transfirió a la Research Collaboration for Structural Bioinformatics formada por la Rutgers University, la University of California en San Diego y la University of Wisconsin. La PDB en la actualidad contiene 111749 estructuras de macromoléculas biológicas, esta base de datos nos permite además interactuar con la proteína en un espacio 3D, resaltar zonas de importancia funcional entre otras herramientas.

De la amplia cantidad de información obtenida en este corto periodo surgió la necesidad de desarrollar un lenguaje sencillo que permitiese identificar las proteínas por homología en las distintas bases de datos establecidas. Algoritmos de este tipo de crearon varios pero el más utilizado quizá por su sencillez fue el BLAST (Basic Local Alignment Search Tool). Fue desarrollado por Altschul en 1990 y es el algoritmo más empleado por el NCBI. La principal característica del BLAST es su velocidad, pudiendo tomar pocos minutos cualquier búsqueda en la totalidad de la base de datos. De hecho, los resultados se

presentan en pantalla inmediatamente después de calculados. El BLAST puede hacer búsquedas en una base de datos no redundante (nr) la cual tiene los registros no redundantes entre las dos bases de datos principales a nivel mundial: GenBank en USA y EMBL (European Molecular Biology Laboratories) en Europa.

Fueron así el desarrollo de estas diversas y la masificación del servicio de internet que permitió el surgimiento de la Bioinformática la cual nos permite investigar sobre las aplicaciones teóricas y analíticas para resolver problemas fundamentales en biología molecular. Tales como análisis de secuencia, análisis de función y estructura de proteínas, identificación de genes, incluyendo algoritmos para la búsqueda en bases de datos, secuencias de baja complejidad, modelos matemáticos de evolución, métodos estadísticos para virología, comportamiento dinámico para reacciones químicas, comparación de genomas, árboles taxonómicos, y genética de poblaciones. Permitiendo así también ampliar el conocimiento almacenado en las bases de datos establecidas.

Si bien en un principio uno de los objetivos de la Bioinformática era el estudio y descripción de la estructura y función de genes y proteínas como unidad en la actualidad ya se ha desarrollando bases de datos secundarias que permiten el estudio de todos los niveles de organización de un ser vivo en acumulado como familias de proteínas, dominios funcionales de proteínas, estructuras tridimensionales, vías de señalización, así como vocabulario controlado o unificado para referirse a cada elemento del genoma de acuerdo con sus propiedades funcionales. También es pieza clave en aplicaciones como la detección genética, diagnóstico molecular, descubrimiento de fármacos y la mejora genética de los cultivos.

Las expectativas para la Bioinformática debido a su rápida evolución son altas, uno de los objetivos que están siendo ya desarrollados es que los recursos computacionales permitan incrementar la eficacia, eficiencia y rapidez de creación de medicamentos, otro de los objetivos es el de crear células virtuales que puedan ser usadas para diagnosticar y tratar enfermedades con mayor seguridad y eficiencia, en especial las de naturaleza multifactorial.

Identificación de una secuencia problema(Parámetros Bioquímicos)

La búsqueda de similitudes para la secuencia problema seq14 se llevó a cabo por medio del programa BLAST. Los resultados indicaron que existen semejanzas significativas entre la secuencia problema seq14 y las proteínas de la Superfamilia FN1, con una coincidencia entre 80 y 200 residuos. La similitud entre las secuencias se mide por medio del E-value; entre menor sea este valor mayor es la significancia de la similitud entre las secuencias de las proteínas comparadas.

Secuencia problema:

TYLGNTLVCTCYGGGRGFNCESKPESEETCFDKYTGVSYRVGETYERPKDNMIWDCTCIGAGRGRISCTI

lcl|Query_285182

Query ID

Seq14

Description

amino acid

Molecule type

70

Query Length

RID: Y6VGUMCK015

(Expires on 09-01 04:56 am)

http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Get&RID=Y6VGUMCK015

Reconocimiento de dominios conservados

Fibronectina dominio1, aproximadamente 40 residuos de largo con dos puentes disulfuro conservados. FN1 es uno de tres tipos de repeticiones internas que se combinan para formar dominios más grandes dentro de la fibronectina. La fibronectina, una proteína plasmática que se une las superficies celulares y diversos compuestos que incluyen colágeno, fibrina, heparina, ADN, y la actina, generalmente existe como un dímero en el plasma y como un multímero insoluble en matrices extracelulares. Dímeros de subunidades casi idénticos están unidos por un enlace disulfuro cerca de su extremo C-terminal. FN1 dominios también se encuentran en el factor de coagulación XII, HGF activador, y de tipo activador del plasminógeno tisular. En activador tisular del plasminógeno, los dominios FN1 pueden formar unidades de unión a fibrina-funcionales con dominios similares al EGF C-terminal para FN1.

Descripción

Para elegir un alineamiento significativo producido por la secuencia problema (seq 14) debemos obtener una identidad (ident) del 100% y un valor E (E value) el menor valor posible (ya que esto disminuye la probabilidad que el resultado haya sido obtenido al azar).

Alineamientos significativos:

Description Maxscore

Totalscore

Querycover

E value Ident Accession

RecName: Full = fibronectina; Corto = FN; Banderas:

Precursor [Xenopus laevis]152 471 100% 3e-40 100% Q91740.1

fibronectin precursor [Xenopus laevis]

152 471 100% 3e-40 100% NP_001081270.1

Pero como podemos observar hemos obtenido 2 alineamientos que cumples estas condiciones y/o características y para poder elegir un determinado alineamiento debemos considerar otros aspectos

RecName: Full = fibronectina; Corto = FN; Banderas: Precursor [Xenopus laevis]

ORGANISMO Xenopus laevis (rana africana con uñas)Eukaryota; Metazoos; Chordata; Craniata; Vertebrata; Euteleostomi; Amphibia;

Batrachia; Anura; Pipoidea; Pipidae; Xenopodinae; Xenopus; Xenopus.

REFERENCIA 1 (residuos 1 hasta 2,481 mil)AUTORES DeSimone, DW, Norton, PA y Hynes, RO

TÍTULO Identification and characterization of alternatively spliced fibronectin mRNAs expressed in early Xenopus embryos

REVISTA Dev. Biol. 149 (2), desde 357 hasta 369 (1992)PUBMED 1730390

fibronectin precursor [Xenopus laevis]

ORGANISMO Xenopus laevis (rana africana con uñas)Eukaryota; Metazoos; Chordata; Craniata; Vertebrata; Euteleostomi; Amphibia;

Batrachia; Anura; Pipoidea; Pipidae; Xenopodinae; Xenopus; Xenopus.

REFERENCIA 1 (residues 1 to 2481)

AUTORES Klein SL, Strausberg RL, Wagner L, Pontius J, Clifton SW and Richardson P.

TÍTULO Genetic and genomic tools for Xenopus research: The NIH Xenopus initiative

REVISTA Dev. Dyn. 225 (4), 384-391 (2002)PUBMED 12454917

REFERENCIA 2 (residues 1 to 2481)AUTORES DeSimone DW, Norton PA and Hynes RO.TÍTULO dentification and characterization of alternatively spliced

fibronectin mRNAs expressed in early Xenopus embryosREVISTA Dev. Biol. 149 (2), 357-369 (1992)PUBMED 1730390

COMENTARIO PROVISIONAL REFSEQEste registro no ha sido objeto de última revisión NCBI.La secuencia de referencia se deriva de BC072841.1.

El 25 de julio 2007 esta versión secuencia reemplazada gi: 147905159.

Después de analizar los diferentes aspectos de los 2 alineamientos antes mencionados podemos determinar que el alineamiento de nuestra secuencia problema (Seq 14) corresponde o se acerca más a “RecName: Full = fibronectina; Corto = FN; Banderas: Precursor [Xenopus laevis]” y no a “fibronectin precursor [Xenopus laevis]” ya que este último, aún no ha sido objeto de revisión por la NCBI.

Parámetros:

Max Score152

Total Score471

Query Cover100%

Evalue3e-40

Ident100%

AccessionQ91740.1

Luego de concluir de cuál sería nuestro alineamiento correspondiente podemos obtener la secuencia completa de la secuencia problema (Seq 14), lo cual nos servirá para un análisis posterior.

RecName: Full=Fibronectin; Short=FN; Flags: Precursor

Secuencia completa

>gi|2497976|sp|Q91740.1|FINC_XENLA RecName: Full=Fibronectin; Short=FN; Flags: PrecursorMRRGALTGLLLVLCLSVVLRAAPSATSKKRRQAQQQQQQQVVQPQGTQDNHQKGCYDNGKYYQINQQWERTYLGNTLVCTCYGGGRGFNCESKPESEETCFDKYTGVSYRVGETYERPKDNMIWDCTCIGAGRGRISCTIANRCHEGGQSYKIGDTWRRPHETGGYMLECVCLGNGKGEWTCKPVAERCYDNTAGTSYVVGQTWEKPYQGWMMVDCTCLGEGNGRITCSSKNRCNDQDTKTSYRIGDTWSKTDTRGNLLQCICTGNGRGEWKCERHSSAQATGTGSNPITNIQTALYQPDSQLEPYGHCVTDNGVLYSLGMRWLRTQGSKQMLCTCLGNGVSCEETVATITFGGNANGEPCAIPFTHDGKTYYSCTSEGRQDGKLWCATTSNYDSDKKYSFCTEQLALVQTRGGNSNGALCNFPFLYNNLNYTDSTSEGRQDSMKWCGTTANYDADQKFGFCPMAAHEEICTTNEGVMYRVGDQWDKQHDQGHMMRCTCVGNGRGEWSCVAYSQLKDQCIVDGLTYNVNSSFTKLHEEGHMMNCTCFGQGRGRWKCDAIDQCQDTETRQFYQIGDSWEKHLQGVQYQCYCYGKGIGEWHCQPLSTSQAGTGPVQVIITESANFPTSHPIQWNAPQASHIKNYILRWKPKLKAGPWKQATIPGHLNSYTISGLKPGILYEGQLISILQYGNREVTTFDFTTTTTIHRHSQTESGETTPLPPLVSISESVTEITASSFLVSWVSASDTVSGFRVEYELSEDGDEKRYLELPNTATSVNIPDLLPGRRYNVNVYQITEEGEKSLILSTTQTTAPDAPPEHNVENVDDTSIMIKWNKPQAPITGYRVVYSPSVEGSSTELNLPSTANSVTLTELLPGIEYNITIYAVEDSLESVPVFIQQGTTGTPQTVIVPSPTDLQLVEVTDVKIIIMWTSPQSEVSGYRVVVKPVSPAGRDVQNLPVNRNTFAEVVNLQPGRTYSFEVYAVNRGQESEPLVGEFATKLDAPTDLQFTDVTESTVVIIWIPPQAKIGRYLLSVGQTRGGQPSQFPINPSVTN

HKLDNLLPGTEYTVSLVALKGNQQSASASGVFSTLEPVGSIPHYNTEVTETTIVVTWTPVPRIGFKLDVRPSQGGEAPREVISESGSIVISGLTPGVEYTYSISVLTDGVEKDIPITKTVVTPLSPPTNLRLQPSRDSATLTVYWDRSISPGITGYRISTTPTPMQVGNSLEEEVGPSQTYCVFENLSPGVEYNVSVYAVKEEEESAPLSQMFLQEIPQLTDIKYDDVTDTSIDLRWTPLNSSNIIGYRITVVAAGESVPIYEEFVGPTDGYYKVSGLEPGIDYEISLITLINGGESAPTTIIQHTAVPPPTNLRFTNIGPDNIRVTWSPPTSIELSSYLVRYSPVKKPDDVTELSLSPSTNMVVLSNLLPFTEYLVSVHSVYEERESSSLNGVAKTHLDSPTGIAFSEITPNSFTVHWIAPRGPITGYRIRYQLESGAGRPKEERVPPSRNSITLTHLIPGSEYLVSIIAINGQQESLPLAGQQATVSDVPTDLEVTSSSPNTLTISWEAPAVSVRYYRITYSQTGGHGPEKEFTVPGTSNTATIRGLNPGVSYTITVYAVTGRGDSPASSKPLTIIHKTDVDQPIDMAVTDIQDHSIHVKWSPPPGPVTGYRVTSVPKSGQGETFSQVISPDQTEVTIVGLQPAVEYVVSIYSQGENGESEPLVETAVTNIDNPKGLTFTDVGVDSIRLAWEVPDGQVTRYRVTYSSPEDGVKELFPAPEGDDDTAELHGLRPGTEYTVSIVALHDDMESKPLIGIQSTAIPAPTNLQFSQVTPSGFSLSWHAPTVHLTGYLVRVNPKEKTGPTKEVRLSPGVAATTVTGLMVATKYEVNVYALKDSLTSQPLQGLISTLDNVSPPRRPRIQDVTETTVTLSWRTKTETITGFQIDAIPADGQNPIRRTVDADLRTFTITGLQPGTDYKIYLYTLNDNARSSPVTVDVTTAVDSPSNLRFLTTTSNSLLFTWQPPRARITGYIIRYEKAGGLIKEHLPRLPAGTTESTLTNLEPGTEYIIYIIAVRNNMKSEPLVGRKRTDELPRLVTLPHPGQGPEILDVPTDEENTPHITQTKLDNGNGIQLPGSNGQQPSSDHEGQLIEEHGFRSPLAPTTAVPVRPGKFAPGRYPQERVDIELDTFPVQHGDFDGPYPHGLGPQLNDSGVQEVASHTTISWRPELETTEYIISCHPIDHEEAPLQFRVPGTSSSATLNGLTRGATYNIVVEAQKGTDKHKVLEKRVTVGSPGSPEGVLQPVEDTCYDTFSGAHYSVGQEWERMSESGFRLWCKCLGYGSGHFRCDSSKWCHDNGVNHRIGEKWDRRGENGQMMSCTCLGNGKGEFKCEPPEATCYDEGKMYNVGEQWQKEYLGAICSCTCYGGQQGWRCDNCRRPGAVSPDGTAGQTVSQFTQRYQQNYNLNCPIECYLPLGLQADTQHSQQTQK

Determinación de parámetros bioquímicos y dominios conservados

El cálculo de parámetros fisicoquímicos de secuencias de proteínas tales como composición de aminoácidos, punto isoeléctrico (PI), coeficiente de extinción, composición atómica, vida media estimada (La predicción es generada para tres organismos: humanos (in vitro), levadura y Escherichia coli. Permitiendo extrapolar el resultado a organismos similares. También el cálculo del índice de inestabilidad (la proteína es estable cuando el valor es menor de 40, de lo contrario es inestable), índice alifático (define el volumen relativo ocupado por las cadenas laterales alifáticas: alanina, valina, isoleucina y leucina, pudiendo ser interpretado como un factor positivo para el aumento de la termoestabilidad de proteínas globulares) y promedio de hidropaticidad (la suma de los valores de hidropaticidad dividido entre el número de aminoácidos presente en la proteína).

Para determinar los parámetros bioquímicos y los dominios conservados debemos ingresar a la página de ProtParam del ExPasy e introducir la secuencia completa de aminoácidos obtenida en el paso anterior (solo la secuencia).

Secuencia completa

10 20 30 40 50 60 MRRGALTGLL LVLCLSVVLR AAPSATSKKR RQAQQQQQQQ VVQPQGTQDN HQKGCYDNGK 70 80 90 100 110 120 YYQINQQWER TYLGNTLVCT CYGGGRGFNC ESKPESEETC FDKYTGVSYR VGETYERPKD 130 140 150 160 170 180 NMIWDCTCIG AGRGRISCTI ANRCHEGGQS YKIGDTWRRP HETGGYMLEC VCLGNGKGEW 190 200 210 220 230 240 TCKPVAERCY DNTAGTSYVV GQTWEKPYQG WMMVDCTCLG EGNGRITCSS KNRCNDQDTK 250 260 270 280 290 300 TSYRIGDTWS KTDTRGNLLQ CICTGNGRGE WKCERHSSAQ ATGTGSNPIT NIQTALYQPD 310 320 330 340 350 360 SQLEPYGHCV TDNGVLYSLG MRWLRTQGSK QMLCTCLGNG VSCEETVATI TFGGNANGEP 370 380 390 400 410 420 CAIPFTHDGK TYYSCTSEGR QDGKLWCATT SNYDSDKKYS FCTEQLALVQ TRGGNSNGAL 430 440 450 460 470 480 CNFPFLYNNL NYTDSTSEGR QDSMKWCGTT ANYDADQKFG FCPMAAHEEI CTTNEGVMYR 490 500 510 520 530 540 VGDQWDKQHD QGHMMRCTCV GNGRGEWSCV AYSQLKDQCI VDGLTYNVNS SFTKLHEEGH 550 560 570 580 590 600 MMNCTCFGQG RGRWKCDAID QCQDTETRQF YQIGDSWEKH LQGVQYQCYC YGKGIGEWHC 610 620 630 640 650 660 QPLSTSQAGT GPVQVIITES ANFPTSHPIQ WNAPQASHIK NYILRWKPKL KAGPWKQATI 670 680 690 700 710 720 PGHLNSYTIS GLKPGILYEG QLISILQYGN REVTTFDFTT TTTIHRHSQT ESGETTPLPP 730 740 750 760 770 780 LVSISESVTE ITASSFLVSW VSASDTVSGF RVEYELSEDG DEKRYLELPN TATSVNIPDL 790 800 810 820 830 840 LPGRRYNVNV YQITEEGEKS LILSTTQTTA PDAPPEHNVE NVDDTSIMIK WNKPQAPITG 850 860 870 880 890 900 YRVVYSPSVE GSSTELNLPS TANSVTLTEL LPGIEYNITI YAVEDSLESV PVFIQQGTTG

910 920 930 940 950 960 TPQTVIVPSP TDLQLVEVTD VKIIIMWTSP QSEVSGYRVV VKPVSPAGRD VQNLPVNRNT 970 980 990 1000 1010 1020 FAEVVNLQPG RTYSFEVYAV NRGQESEPLV GEFATKLDAP TDLQFTDVTE STVVIIWIPP 1030 1040 1050 1060 1070 1080 QAKIGRYLLS VGQTRGGQPS QFPINPSVTN HKLDNLLPGT EYTVSLVALK GNQQSASASG 1090 1100 1110 1120 1130 1140 VFSTLEPVGS IPHYNTEVTE TTIVVTWTPV PRIGFKLDVR PSQGGEAPRE VISESGSIVI 1150 1160 1170 1180 1190 1200 SGLTPGVEYT YSISVLTDGV EKDIPITKTV VTPLSPPTNL RLQPSRDSAT LTVYWDRSIS 1210 1220 1230 1240 1250 1260 PGITGYRIST TPTPMQVGNS LEEEVGPSQT YCVFENLSPG VEYNVSVYAV KEEEESAPLS 1270 1280 1290 1300 1310 1320 QMFLQEIPQL TDIKYDDVTD TSIDLRWTPL NSSNIIGYRI TVVAAGESVP IYEEFVGPTD 1330 1340 1350 1360 1370 1380 GYYKVSGLEP GIDYEISLIT LINGGESAPT TIIQHTAVPP PTNLRFTNIG PDNIRVTWSP 1390 1400 1410 1420 1430 1440 PTSIELSSYL VRYSPVKKPD DVTELSLSPS TNMVVLSNLL PFTEYLVSVH SVYEERESSS 1450 1460 1470 1480 1490 1500 LNGVAKTHLD SPTGIAFSEI TPNSFTVHWI APRGPITGYR IRYQLESGAG RPKEERVPPS

1510 1520 1530 1540 1550 1560 RNSITLTHLI PGSEYLVSII AINGQQESLP LAGQQATVSD VPTDLEVTSS SPNTLTISWE 1570 1580 1590 1600 1610 1620 APAVSVRYYR ITYSQTGGHG PEKEFTVPGT SNTATIRGLN PGVSYTITVY AVTGRGDSPA 1630 1640 1650 1660 1670 1680 SSKPLTIIHK TDVDQPIDMA VTDIQDHSIH VKWSPPPGPV TGYRVTSVPK SGQGETFSQV 1690 1700 1710 1720 1730 1740 ISPDQTEVTI VGLQPAVEYV VSIYSQGENG ESEPLVETAV TNIDNPKGLT FTDVGVDSIR 1750 1760 1770 1780 1790 1800 LAWEVPDGQV TRYRVTYSSP EDGVKELFPA PEGDDDTAEL HGLRPGTEYT VSIVALHDDM 1810 1820 1830 1840 1850 1860 ESKPLIGIQS TAIPAPTNLQ FSQVTPSGFS LSWHAPTVHL TGYLVRVNPK EKTGPTKEVR 1870 1880 1890 1900 1910 1920 LSPGVAATTV TGLMVATKYE VNVYALKDSL TSQPLQGLIS TLDNVSPPRR PRIQDVTETT 1930 1940 1950 1960 1970 1980 VTLSWRTKTE TITGFQIDAI PADGQNPIRR TVDADLRTFT ITGLQPGTDY KIYLYTLNDN 1990 2000 2010 2020 2030 2040 ARSSPVTVDV TTAVDSPSNL RFLTTTSNSL LFTWQPPRAR ITGYIIRYEK AGGLIKEHLP 2050 2060 2070 2080 2090 2100 RLPAGTTEST LTNLEPGTEY IIYIIAVRNN MKSEPLVGRK RTDELPRLVT LPHPGQGPEI 2110 2120 2130 2140 2150 2160 LDVPTDEENT PHITQTKLDN GNGIQLPGSN GQQPSSDHEG QLIEEHGFRS PLAPTTAVPV 2170 2180 2190 2200 2210 2220 RPGKFAPGRY PQERVDIELD TFPVQHGDFD GPYPHGLGPQ LNDSGVQEVA SHTTISWRPE 2230 2240 2250 2260 2270 2280 LETTEYIISC HPIDHEEAPL QFRVPGTSSS ATLNGLTRGA TYNIVVEAQK GTDKHKVLEK 2290 2300 2310 2320 2330 2340 RVTVGSPGSP EGVLQPVEDT CYDTFSGAHY SVGQEWERMS ESGFRLWCKC LGYGSGHFRC 2350 2360 2370 2380 2390 2400 DSSKWCHDNG VNHRIGEKWD RRGENGQMMS CTCLGNGKGE FKCEPPEATC YDEGKMYNVG 2410 2420 2430 2440 2450 2460 EQWQKEYLGA ICSCTCYGGQ QGWRCDNCRR PGAVSPDGTA GQTVSQFTQR YQQNYNLNCP 2470 2480 2481IECYLPLGLQ ADTQHSQQTQ K

Características de la secuencia analizada:

Número de aminoácidos:

2,481

Peso molecular: 272679.7 =

273 KD

PI teórico: 5,19

Aminoácidos - composiciónCódigo Cantidad Porcentaje

3 letras 1 letraAla A 104 4,20%

Arg R 112 4,50%

Asn N 108 4,40%

Asp D 114 4,60%

Cys C 62 2,50%

Gln Q 132 5,30%

Glu E 160 6,40%

Gly G 215 8,70%

His H 50 2,00%

Ile I 135 5,40%

Leu L 168 6,80%

Lys K 87 3,50%

Met M 27 1,10%

Phe F 52 2,10%

Pro P 174 7,00%

Ser S 202 8,10%

Thr T 250 10,10%

Trp W 41 1,70%

Tyr Y 104 4,20%

Val V 184 7,40%

4.19% 4.51%4.35%

4.59%2.50%

5.32%

6.45%

8.67%

2.02%5.44%6.77%

3.51%1.09%2.10%

7.01%

8.14%

10.08%

1.65%4.19%

7.42%

Aminoácidos - Composición

Ala A Arg R

Asn N Asp D

Cys C Gln Q

Glu E Gly G

His H Ile I

Leu L Lys K

Met M Phe F

Pro P Ser S

Thr T Trp W

Tyr Y Val V

Se encontró que el aminoácido más abundante de la secuencia a problema es la treonina (thr) con un total de 250 residuos, es decir un 10.10% del total de aminoácidos; la treonina se clasifica como hidrofilica. El segundo aminoácido más abundante es la Glicina (Gly) representando el 8.70% de los residuos; este aminoácido es neutral, alifático e hidrofóbico. En tercer lugar se encuentra el serina (Ser) representando el 8.10% de los aminoácidos.

Tabla1: resultados que muestran la composición de la secuencia problema seq 14

274199

Número total de residuos

Carga negativa (Asp + Glu)

Carga positiva (Arg + Lys)

Tabla 2 - Composición atómica y Fórmula QuímicaElemento Nº de átomos Fórmula Química Total de átomos

Carbono C 11974

C 11974 H 18633 N 3285 O 3826 S 89 37807Hidrógeno H 18633Nitrógeno N 3285Oxígeno O 3826Azufre S 89

Número total de residuos de carga

positiva (Arg + Lys)

Número total de residuos de carga

negativa (Asp + Glu)

11974

18633

3285

3826 89

Composición atómica

Carbono C Hidrógeno H Nitrógeno N Oxígeno O Azufre S

Tabla 3 - Los coeficientes de extinción

Los coeficientes de extinción son en unidades de M -1 cm -1, a 280 nm medido en el agua.

Suponiendo que todos los pares de residuos de Cys forman cistinas.

Ext. Coeficiente 384335ABS 0,1% (= 1 g / l) 1.409

Suponiendo que todos los residuos de Cys se reducen.

Ext. Coeficiente 380460Abs 0,1% (= 1 g / l) 1.395

Tabla 4 - Estimación de vida media

La N-terminal de la secuencia considerada es M (Met)

La vida media estimada es:>30 horas (reticulocitos de mamíferos in vitro)> 20 horas (levaduras, in vivo)> 10 horas (Escherichia coli, in vivo)

Tabla 5 - Índice de Inestabilidad

El índice de inestabilidad (II): 42,86 Esto clasifica a la proteína como inestable.

Tabla 6 - Índice alifáticos

73.33

Tabla 6 - Promedio de Hidropaticidad - Grand average of hydropathicity (GRAVY)

-0.450

Base de datos de dominios de la proteína, las familias y los sitios funcionales

Fibronectina

La fibronectina es una glicoproteína dimérica compuesta de subunidades unidas por puentes disulfuro con un peso molecular de 220 a 250 kDa cada una. Está implicado en la adhesión celular, la morfología celular, la trombosis, la migración celular, y diferenciación embrionaria. La fibronectina es una proteína modular compuesta de repeticiones homólogas de tres tipos prototípicos de dominios conocidos como tipos I, II, y III.

La fibronectina es una proteína plasmática que se une las superficies celulares y diversos compuestos que incluyen colágeno, fibrina, heparina, ADN y actina. La mayor parte de la secuencia de fibronectina consiste en la repetición de tres tipos de dominios (tipo I, II, y III).

Éxito de perfiles

ENCONTRAMOS 31 PERFILES REPARTIDOS EN TRES DOMINIOS DIFERENTES EN UNA SECUENCIA (FN1, FN2, FN3)

Fibronectina de tipo I

Dominio de tipo I (FN1) es de aproximadamente 40 residuos de longitud. Cuatro cisteínas conservadas están implicados en enlaces disulfuro. La fibronectina contiene 12 repeticiones de este dominio.La estructura 3D del dominio FN1 ha sido determinada. Se compone de dos hojas beta antiparalelas, primero uno de doble cadena, que está ligado por un enlace disulfuro a una β-hoja

de triple cadena. El segundo puente disulfuro enlaces conservadas las hebras adyacentes C-terminal del dominio.

La fibronectina de tipo II

Dominio Tipo II (FN2) es de aproximadamente 40 restos de longitud, contiene cuatro cisteínas conservadas implicados en enlaces disulfuro y es parte de la región de unión de colágeno de la fibronectina. En la región de unión fibronectina colágeno mínimo está formado por uno FN1 y dos FN2 dominios. Esto sugiere que los sitios de unión de colágeno se extienden por varios módulos.

La fibronectina de tipo III

Las (FN3) repeticiones de tipo III de fibronectina son a la vez el más grande y el más común de los subdominios de fibronectina. Dominios homóloga a las repeticiones FN3 se han encontrado en diversas familias de proteínas animales, incluyendo otras moléculas de la matriz extracelular, receptores de superficie celular, enzimas y proteínas musculares.

Éxito de patrones (secuencia altamente conservada que definen a una proteína)

ENCONTRAMOS 14 PATRONES REPARTIDOS EN TRES MODELOS DIFERENTES EN UNA SECUENCIA (FN1, EGF, WD_REPEATS_1)

EGF

Una secuencia de aproximadamente treinta a cuarenta residuos de amino-ácidos de largo que se encuentran en la secuencia del factor de crecimiento epidérmico (EGF). EGF es un polipéptido de aproximadamente 50 aminoácidos con tres puentes disulfuro internos. En primer lugar, se une con alta afinidad a receptores específicos de la superficie celular y luego induce su dimerización, que es esencial para la activación de la tirosina quinasa en el dominio citoplásmico del receptor, iniciando una transducción de señales que da como resultado la síntesis de ADN y la proliferación celular.Una característica común de todos los dominios similares a EGF es que se encuentran en el dominio extracelular de proteínas unidas a la membrana o en las proteínas que se sabe están secretado (excepción: la prostaglandina G / H sintasa). El dominio de tipo EGF incluye seis residuos de cisteína que han demostrado estar involucrados en enlaces disulfuro.

Trp-Asp (WD-40)

β-transducina (G-β) es una de las tres subunidades (α, β, y gamma) de las proteínas de unión a nucleótidos de guanina (proteínas G) que actúan como intermediarios en la transducción de señales generadas por los receptores transmembrana. La subunidad α se une a GTP y se hidroliza; las funciones de las subunidades beta y gamma son menos claras, pero parece que se requiere para la sustitución del PIB para el GTP, así como para el anclaje de la membrana y el reconocimiento del receptor.En eucariotas superiores existe G-β como una pequeña familia multigénica de proteínas altamente conservadas de alrededor de 340 residuos de aminoácidos. Estructuralmente G-β consta de ocho

repeticiones en tándem de aproximadamente 40 residuos, cada uno con un motivo central Trp-Asp (este tipo de repetición a veces se llama una repetición WD-40).

Visualización de la estructura tridimensional de la proteína identificada

La visualización en 3D de la estructura de la proteína secuenciada nos permite tener una mejor idea de las distintas partes de esta, y con ello tener una mejor comprensión de sus diversas funciones, para nuestro trabajo a partir de la secuencia completa lograremos obtener la visualización en 3D de nuestra proteína.

Realizamos la búsqueda de la estructura tridimensional ingresando la secuencia completa en la base de datos del Protein Data Bank, este programa comparará nuestra secuencia con todas las que estén en él almacenadas, y nos arrojará las proteínas que tengan mayor coincidencia con la secuencia problema.

De estos resultados para escoger el más adecuado se comparó la puntuación, la resolución y la citación, la proteína escogida fue la siguiente:

Estructura del fragmento Fn7B89 del cuarto dominio de la fibronectina oncofetal:

Breve descripción estructural y funcional:

El tipo III-Extradominio B (ED-B) se empalma específicamente en fibronectina (Fn) durante la embriogénesis y neoangiogénesis, incluyendo muchos tipos de cáncer. La estructura de rayos x del fragmento del cuarto dominio recombinante Fn (III) 7B89 revela una fuerza asociada, del dímero prolongado de cabeza a la cola, que se estabiliza a través de pares y complementariedad. Una tendencia hacia la formación de dímero ED-B-dependiente en solución fue apoyada por cromatografía de exclusión por tamaño y ultracentrifugación analítica. Cuando se modifica el modelo con la estructura conocida en tres dimensiones de la Fn (III) 10 dominio, su bucle RGD, así como la región sinergia adherente en Fn (III) 9 hasta 10 convertido en que aparece en la misma cara del dímero; esto debería permitir la unión de al menos dos integrinas simultánea y, por lo

tanto, la agrupación de receptores en la superficie celular y la señalización intracelular. La inserción de ED-B parece estabilizar la dimerización general de la cabeza a la cola de dos cadenas Fn separados, que, junto con la alternancia de la formación del homodímero a través de puentes disulfuro en la Fn cola C-terminal, debe conducir a la formación de fibrillas macromoleculares conocidas.

Descripción molecular:

Proteína de union.Clasificación:

40.967,60.Peso de la estructura:

Fragmento del cuarto dominio de la Fibronectina.

Molécula:

1 - Proteína - 375.Polímero - Tipo - Largo:

A.Cadena:

Residuos unp 920 - 1286.Fragmento:

Homo sapiens.Organismo:

DKFZp686O12165Gen:

Q6MZM7UniProtKB:

Vista de las características de la proteína:

Residuo no terminal.Up sites

Secestruct

conclusiones:

La proteína encontrada es la fibronectina, una glicoproteína dímera que se adhiere a la superficie celular.

Contiene abundancia de puentes disulfuro a lo largo de la proteína.

Está implicado en la adhesión celular, la morfología celular, la trombosis, la migración celular, y diferenciación embrionaria.

El índice de estabilidad es de 42.86, al ser menor que el 50% nos indica que es una molécula inestable.

Se considera el estado de vida meda de la proteína teniendo como referencia al ultimo residuo de la cadena que en este caso es la metionina, podemos encontrar la vida media para varios de tipos de fibronectina ubicados en distintos tipos de células, teniendo como mayor tiempo estimado para los humanos.

El coeficiente de extinción de la glicoproteína se debe tomar en cuenta (suponiendo) que el residuo de cisteína se vuelvan cistina o si se reducen.

El índice de aminoácidos alifáticos es de 73.33% por la gran abundancia de estos, que se encuentran en mayor proporción en toda la proteína.

Esta proteína tiene gran carga negativa por la mayor abundancia de los aminoácidos asparagina y glutamina encontrados .

La fibronectina es una proteína plasmática que se une las superficies celulares y diversos compuestos que incluyen colágeno, fibrina, heparina, ADN y actina.

En los estudios demuestran que lo aminoácidos y los carbohidratos son similares en la estructura secundaria como en la terciaria, así como también en sus dominios estructurales específicos y su organización.

Discusión de resultados:

La fibronectina (FN) es una matriz extracelular glicoproteína ~220 kDa (monómero de peso molecular) que se encuentra en una forma soluble dimérica en los fluidos corporales, incluyendo plasma, y en una forma multimérica insoluble como parte de muchas matrices extracelulares. Contiene sitios de unión para una amplia gama de moléculas que incluyen receptores de la superficie celular tales como las integrinas. La mayor parte de la secuencia de fibronectina consiste en la repetición de tres tipos de dominios, que se denominan tipo I, II, y III.

La FN desempeña funciones vitales durante la reparación de tejidos. La forma de plasma de FN circula en la sangre, y sobre la lesión de tejidos, se incorpora en coágulos de fibrina para ejercer efectos sobre la función de plaquetas y para mediar la hemostasia. Celular FN es luego sintetizada y ensamblada por las células como migran en el coágulo para reconstituir el tejido dañado.

Obtuvimos la proteína problema a partir de secuencia de aminoácidos con el NCBI, nuestra proteína fue la fibronectina de Xenepus laevis, mientras que al usar la herramienta Protparam esta herramienta nos permitió obtener una serie de datos sobre esta proteína, como el número y composición de aminoácidos, Ph, tiempo de vida estimada entre otras características más. Posteriormente usamos la herramienta PROSITE ya que nos proporcionó diversa información acerca de las proteína.

Es probable que todas las fibronectinas sean similares en estructura ya que cumplen la misma función, por eso hemos visto que inicialmente en NCBI da como resultado un organismo diferente al PDB. De hecho, el PDB no contiene ninguna estructura molecular. Es mejor decir que contiene modelos de macromoléculas. Estos modelos son interpretación de datos obtenidos a partir de dos principales métodos de determinación de estructuras: cristalografía de rayos X y espectroscopia

NMR. En nuestra proteína problema se determinó la estructura la fibronectina que tengan la cristalografía de rayos x mejor resolución (2,40 Å) y un alto Residuo Count (375).

Bibliografía

1. Lucena S, Arocha Piñango CL, Guerrero B. Fibronectina: Estructura y funciones asociadas a la hemostasia. Revisión. Investig Clínica. 2007 Jun;48(2):249–62.

2. GenBank. (Fecha de acceso Setiembre 2 de 2015). Disponible en: http://www.ncbi.nlm.nih.gov/GenBank/index.html

3. HARPER BIOQUIMICA ILUSTRADA 29 a edición Sección I Estructuras y funciones de proteínas y enzimas, Capítulo 10 Bioinformática y biología computacional pag 94 – 105

4. NCBI Bioinformatics. (fecha de acceso Setiembre 2 de 2015). Disponible en: http://www.ncbi.nlm.nih.gov/About/primer/ bioinformatics.html

5. Pevsner, J. (2010) Bioinformatics and Functional Genomics. 2ª ed. Ed. Wiley-Blackwell. (http://bioinfbook.org/index.php).

6. Canal del National Center for Biotechnology Information (NCBI) en Youtube (http://www.youtube.com/NCBINLM)

7. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. 1990; 215(3):403-10.

http://www.youtube.com/NCBINLM

el informe

Documents

base de datos

datos de fcil acceso

seres vivos

grandes cantidades de

disciplina acadmica

extraccin de conocimiento

rutgers university

university of california