kegg_netaffx

Upload: sorina-rusu

Post on 14-Jul-2015

40 views

Category:

Documents


0 download

TRANSCRIPT

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

Universitate de Vest din Timisoara, Facultatea de Matematica si Informatica

Studiu bibliografic al bazelor de date si instrumentelor software utilizate in analiza expresiei genice:KEGG (Kyoto Encyclopedia of Genes and Genomes) si NetAffx

Student: Badau Sorina Informatica Aplicata in Stiinte, Tehnologie si Economie, Anul 1

Coordonator: Prof. Dr. Daniela Zaharie

1

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

Abstract

In lucrarea de fata am analizat doua dintre bazele de date folosite in bioinformatica si anume, KEGG ( Kyoto Encyclopedia of Genes and Genomes) si NetAffx, impreuna cu instrumentele software de care dispun. KEGG este acum una dintre cele mai utilizate baze de date biologice din lume, cuprinzand 16 baze de date principale, clasificate in sisteme de informatii, informatii genomice, si informatii chimice. KEGG a fost utilizat pe scar larga ca o baza de cunostinte de referinta pentru interpretarea biologica a seturilor de date de scara mare generate prin secventiere si alte tehnologii experimentale. NetAffx Analysis Center permite cercetatorilor sa coreleze rezultatele lor GeneChip cu informatii de desing si adnotare. NetAffx este construit in jurul unei interfete de cautare SRS care permite userilor sa caute seturi de probe ce se potrivesc unui criteriu.

2

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

Introducere

I. Biostatistica si BioinformaticaBiologie computationala este ramura ce se ocupa de rezolvarea problemelor specifice biologiei (analiza, modelarea si predictia pe baza datelor genomice) folosind metode si tehnici specifice matematicii si informaticii. Biostatistica reprezinta ramura ce trateaza utilizarea modelelor si metodelor statistice in analiza datelor biologice. Bioinformatica se ocupa cu dezvoltarea de algoritmi pentru colectarea, stocarea si analiza datelor specifice biologiei moleculare. Este un domeniu in plina dezvoltare deoarece tehnicile de secventiere a genomului genereaza in continuare un volum mare de date care asteapta sa fie analizate. Pana in prezent a fost secventiat genomul pentru circa 70 de specii. Domeniul este inca in prima etapa de dezvoltare, si are ca provocari principale prelucrarea unui volum mare de date precum si proiectarea unor sisteme complexe de analiza a datelor. Cele mai profitabile cercetari in bioinformatica rezulta de multe ori din integrarea surselor multiple de date. De exemplu, coordonatele 3D ale unei proteine sunt mult mai utile daca sunt combinate cu date despre functiile proteinei, apariatia in diferiti genomi si interactiunea cu alte molecule. In acest fel informatii individuale sunt puse in context cu privire la late date. Din pacate, nu este intotdeauna usor de accesat si inter-relationat aceste surse de informatie din cauza diferentelor de nomenclatura si de format al fisierelor. La un nivel de baza, aceasta problema este frecvent abordata prin oferirea de legaturi externe la alte baze de date. La un nivel mai avansat, se fac eforturi sa se intergreze accesul intre mai multe surse de date. Unul dintre aceste este SRS (Sequence Retrieval System), care permite bazelor de date cu fisiere aplatizate sa fie indexate unele la altele. Acest lucru permite userului sa retraga, sa relationeze si sa acceseze intrari din acidul nucleic, secventa de proteine, structuri ale proteinelor si baze de date bibliografice.

II. KEGG: Kyoto Encyclopedia of Genes and GenomesKEGG este acum una dintre cele mai utilizate baze de date biologice din lume pe scara larga, dupa cum indica statisticile de acces web (150 - 200 de mii de vizitatori pe luna). KEGG interconecteaza informatii cunoscute despre retelele de interactiune moleculara , cum sunt caile si complexele, informatii despre gene si proteine generate prin proiecte de genomi, si informatii despre compusi chimici si reactii. 1. Baza de date KEGG KEGG este o resursa baza de date integrata, alc tuit din 16 baze de date principale, in linii mari clasificate in sisteme de informatii, informatii genomice, si informatii chimice, dupa cum este aratat mai jos. Informatiile genomice si chimice reprezint blocurile moleculare de construire a vietii in spatiile genomice si chimice, iar sistemele de informatii reprezinta aspectele functionale ale sistemelor biologice, cum ar fi celula si organismul, care sunt construite din blocuri moleculare.3

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

KEGG a fost utilizat pe scar larga ca o baza de cunostinte de referinta pentru interpretarea biologica a seturilor de date de scara mare generate prin secventiere si alte tehnologii experimentale.Categorie Baza de date KEGG PATHWAY KEGG BRITE KEGG MODULE Sisteme de informatiii KEGG DISEASE KEGG DRUG KEGG ENVIRON Continut Harti de cale pentru metabolism si alte procese celulare, precum si boli umane; create manual din materiale publicate. Ierarhii functionale (ontologii) ce reprezinta cunostintele noastre despre diferite aspect ale sistemelor biologice; create manual din materiale publicate Unitati functionale mai stricte pentru cai si complexe; definite manual Lista cu boli ale genelor si moleculelor; introduse manual din lucrari publicate. Structuri chimice si informatii asociate drogurilor aprobate in Japonia, USA si Europa; introduse manual din lucrari publicate. Componente chimice si informatii associate drogurilor in forma bruta si a altor produse naturale; introduse manual din lucrari publicate. Hartii ale genomului si informatii despre organism; generate din RefSeq si alte resurse publice Cataloage de gene cu genomii completi cu adnotare manuala; generate din RefSeq si alte resurse publice Scoruri ale secventelor de similaritate si relatiile cu cel mai bun hit; calcule derivate din GENES prin compararea perechilor de genomuri ale tuturor genelor codate proteic. Cataloage de gene cu genomi ciorne cu adnotare automata; generate din resurse web. Cataloage de gene cu date EST, cu adnotare automata; generate din dbEST Cataloage de gene cu metagenomi cu adnotare automata; generate din resursele NCBI Glicani; introdusi manual din materialele publicate Reactii chimice; definite manual din ENZYME si PATHWAY Template-uri de transformare a structurii chimice; definite manual din RECTION Clase de reactive definite de template-urile de transformare a structurii chimice a principalelor perechi de reactanti; generate din RPAIR cu adnotatii. Nomenclatura enzimelor; generate din ExplorEnz cu adnotare de KEGG

KEGG ORTHOLOGY Grupuri de ontologii KEGG (KO) bazate pe PATHWAY si BRITE; definite manual KEGG GENOME KEGG GENES Informatii genomice KEGG SSDB KEGG DGENES KEGG EGENES KEGG MGENES KEGG GLYCAN Informatii chimice KEGG REACTION KEGG RPAIR KEGG RCLASS KEGG ENZYME

KEGG COMPOUND Compusi chimici; introdusi manual din materialele publicate

Cautarea in bazele de date, de exemplu in baza de date GENES, se face dupa cum se poate observa in figurile de mai jos:

In casuta introducandu-se formatul org:gene, rezulta pentru syn:ssr3451:

4

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

2. Obiecte KEGG KEGG este o reprezentare pe calculator a sistemelor biologice. Se bazeaza pe conceptul de graf pentru a reprezenta si manipula diferite obiecte KEGG de la nivel molecular la nivele mai inalte. Din punct de vedere matematic, un graf este un set de noduri (obiectele KEGG) si linii (relatii biologice). Fiecarui obiect KEGG (intrare in baza de date) ii este dat un identificator unic dupa cum se pate vedea mai jos:An aparitie 1995 Baza de date KEGG PATHWAY KEGG GENES KEGG ENZYME KEGG COMPOUND 2000 2001 2002 2003 2004 2005 2007 2008 2010 KEGG GENOME KEGG REACTION KEGG GLYCAN KEGG RPAIR KEGG BRITE KEGG DRUG KEGG MODULE KEGG DISEASE KEGG ENVIRON KEGG RCLASS Identificatorul Obiectului map number locus_tag / GeneID EC number C number organism code / T number R number G number RP number br number D number M number H number E number RC number

KEGG ORTHOLOGY K number

Obiectele KEGG sunt corelate la /de la bazele de date importante din stiintele vietii. Obiectele KEGG fac parte deasemenea si din Web si pot fi gasite de motoarele de cautare.

5

Biostatistica si BioinformaticaGraf KEGG Web Nod Linie

Badau Sorina, IASTE, An ICautare si Analiza KEGG Google, etc.

Obiect KEGG Relatii biologice Pagina Web Hyperlink

Baza de date integrata Intrare

Trimitere la alte referinte DBGET, Entrez, SRS, etc.

3. Ierarhia retelei Reteaua de interactiune/reactie molecular este cel mai unic obiect data din KEGG, care este stocat ca o colectie de harti de cale (diagrame grafice) in baza de date PATHWAY. Baza de date KEGG PATHWAY este organizata ca o ierarhie, avand primele 2 nivele:Primul Nivel Al Doilea NivelMetabolismul Glucidelor Metabolismul Energiei Metabolism Lipidelor Metabolismul Nucleotidelor Metabolismul Aminoacizilor Metabolismul altor Aminoacizi Biosinteza si Metabolismul Glycanilor Metabolismul Cofactorilor si Vitaminelor Metabolismul compusilor terpenici si Polichidelor Biosinteza altor Metaboliti secundari Biodegradarea si Metabolismul Xenobioticelor

Metabolism

Transcriptie Translatie Procesarea informatiilor genetice Pliere, sortare si degradarea Replicare si reparare Transportul Membranei Procesarea informatiilor de mediu Transductia Semnalului Molecule de semnalizare si interactiune Procese celulare Transport si Catabolism Motilitatea celulei Cresterea si moartea celulei Comunicarea celulei Sistemul Imunitar Sistemul Endocrinologic Sistemul Circulator Sistemul Digestiv Sistemul Excretor Sistemul Nervos Sistemul Senzitiv Dezvoltarea Adaptarea la mediu Cancer Boli ale sistemului imunitar Boli neurodegenerative Boli Cardiovasculare Boli Metabolice Boli infectioase

Sisteme de organism

Boli umane

4. Recontructia Retelei Initial, integrarea informatiilor de cale si genomice au fost pentru prima data realizate in KEGG de catre numarele EC. Odata ce numerele EC au fost corect asignate genelor enzime in genom, caile specifiece organismului pot fi generate automat prin potrivirea impotriva retelelor numerelor EC6

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

(enzime) in caile metabolice de referinta. Totusi, pentru a incorpora cai non-metabolice si a depasi diversele probleme inerente in nomenclatura enzimelor, a fost introdusa o noua schema bazata pe IDurile ortologice, inlocuind astfel numerele EC. KO(Ortologia KEGG) este o noua extensie a ortologiei bazata pe ID-uri nu doar pe hartile de cale, ci si ierarhiilor functionale BRITE, mai ales clasificarile familiilor de prteine. In cadrul sistemului KO actual, identificatorii KO (numerele K) sunt plasate la al patrulea (cel mai mic) nivel in ierarhia retelei sau la cel mai mic nivel al ierarhiei BRITE. 5. Ierarhia functionala BRITE Baza de date BRITE este o colectie de fisiere text si fisiere de relatii binare ierarhice. Aceasta este destinat sa completeze baza de date PATHWAY in doua moduri. Un mod este acela de a computeriza cunostintele de nivel inalt care nu pot fi reprezentate prea usor ca retele moleculare de interactiune/reactie, in termeni de vocabular structurat ierarhic. Celalalt mod este de a integra cunostintele despre spatiul genomic (numere K) impreuna cu diferite tipuri de cunostinte din spatiul chimic (numerele C/D/G/R/RP/EC in baza de date LIGAND). Colectia BRITE este organizata astfel:Top Category Gene si Proteine Second Category Ierarhii de retele Familii de proteine

Compusi Composi si Reactii Reactiii Interactiuni compuse Druguri si Boli Druguri si Boli Celule si Organisme Organisme

6. Identificatori ai obiectelor KEGG Obiectele KEGG sunt entitati biologice de la nivel molecular la nivele mai inalte. Fiecare obiect (cu exceptia genelor) este identificat printr-un identificator KEGG specific, ce consta intr-un numar de cinci cifre prefixat de o litera mare a alfabetului, de exemplu K05032 si D00336, sau prefixate de un code din doua-patru litere pentru PATHWAY si BRITE, ca de exemplu map00010 si br08301.Prefix K C D E G R RP RC map/ko/ec/rn/(org) br/ko/(org) M H T Continut Grup ortologic de gene/proteine Compus chimic Drog Produs naturale Glican Reactie Perechi de reactanti Clasa de reactie Harta de cale Ierarhie Brite (ontologie) Modul de cale Boala umana Organism Baza de date ORTHOLOGY COMPOUND DRUG ENVIRON GLYCAN REACTION RPAIR RCLASS PATHWAY BRITE MODULE DISEASE GENOME

7. Coduri pentru organismele KEGG Fiecare obiect KEGG poate fi identificat in mod unic fara numele bazei de date din cauza prefixul diferit, dar formatul general pentru a retrage o intrare din baza de date in KEGG si toate celelalte baze de date GenomeNet este: db:entry unde "db" este numele bazei de date si entry este numele inregistrarii sau a numarului de accesare. Exemple: ko:K050032 si drug:D00336. In plus fata de numarul T din tabelul de mai sus, unui organism in KEGG ii este dat un cod de trei litere (cu prefixul d pentru schita genomului si e pentru7

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

contigs EST), care este tratat ca un nume de baza de date. Prin urmare, genele individuale dintr-un organism pot fi identificate in felul urmator: org:gene unde org este codul organismului KEGG si gene este numele intrarii genei KEGG. Codul organismului KEGG este deasemenea folosit ca si prefix pentru a identifica hartile de cale specifice organismului sau ierarhiilor functionale BRITE, ca de exemplu hsa04930 si mmu04000.Prefix map ko ec rn br "org" Content Calea de referinta Calea de referinta(KO) sau ierarhia BRITE de referinta (KO) Calea de referinta (EC) Calea de referinta (Reaction) Ierarhia BRITE de referinta (BR) Calea specifica organismului sau ierarhia BRITE

map00010 8. Numele intrarilor in baza de date KEGG GENES Numele intrarilor in baza de date a genelor KEGG (KEGG GENES) sunt de obicei locus_tags (etichete_loc) date de Colaborarea Internationala a Bazei de date a Secventelor Nucleotitice (INSDC). Majoritatea bazelor de date de secvente cum ar fi NCBI sau UniProt/Swiss-Prot folosesc diferite seturi de identificatori pentru gene/protein. Pentru a facilita utilizarea KEGG, s-a implementat conversia automata a numelor pentru acesti identificatori. 9. Namespace-uri KEGG Identificatorii KEGG, constituiti din identificatorii pentru obiectele KEGG (prefix+un numar de cinci cifre), numele intrarilor in baza de date KEGG GENES (locus_tags) si identificatorii enzimelor (numerele EC), formeaza Namespace-urile KEGG. Identificatorii KEGG rezumati in cele ce urmeaza sunt interconectati puternic in interiorul namespace-ului KEGG, reprezentand diferite tipuri de relatii biologice.Baza de date PATHWAY BRITE Identificator map number ko/br number Remarca Corespunde unui set de numere K/C/D/G/R. Corespunde unui set de numere K/C/D/G/R/T. Corespunde unui set de nume de intrari pentru gene.

ORTHOLOGY K number GENES Entry name (locus_tag) C/D/G/R number RP/RC number EC number

LIGAND

8

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

10. Legaturi la baze de date externe In plus fata de legaturile din interiorul namespace-rilor KEGG, identificatorii sunt relationati la intrari din baze de date externe. Aceste legaturi reprezinta de obicei acelasi inteles biologic, cum ar fi aceeasi gena sau proteina in acelasi organism, permitand utilizatorului sa integreze informatii din diferite surse. Din acest punct de vedere, KEGG este un site portal pentru baze de date mai specializate in diferite domenii ale stiintelor biomedicale.Baza de date Identificator Entry name (locus_tag) Unele legaturi externe NCBI gi number Entrez Gene OMIM UniProt/Swiss-Prot TIGR CMR Sanger GeneDB Alte baze de date genomice TIGR Sanger Alte baze de date genomice ExPASy UM-BBD ERGO LIPID MAPS KNApSAcK 3DMET DailyMed

GENES

GENOME

NCBI Taxonomy Organism code RefSeq (T number) JGI EC number IUBMB ExplorEnz BRENDA PubChem ChEBI PDB-CCD PubChem DrugBank CarbBank Gene Ontology COG

ENZYME

COMPOUND DRUG GLYCAN

C number D number G number

ORTHOLOGY K number

TCDB CAZy

11. Hartile de cale KEGG i) Obiecte harti grafice Harta de cale KEGG este o diagrama de retea moleculara interactiune/reactie in termeni de grupuri de Ortologie KEGG (KO), astfel incat rezultatele experimentale din organismele specifice pot fi generalizate la alte organisme prin intermediul informatiei genomice. Fiecare harta este desenata manual cu software-ul specific KegSketch, care genereaza KGML (KEGG Markup Language) si fisier. Acest fisier este de tip SVG continand obiecte grafice care sunt asociate cu obiectele KEGG. Principalele obiecte grafice din hartile de cale de referinta sunt: y patrate grupuri ortologice (KO) identificate prin numere K si, in hartile metabolice, reactii identificate prin numere R y cercuri alte molecule, de obicei compusi chimici identificati prin numere C, dar incluzand si glicani care sunt identificati prin numere G y linii reactii identificate prin numere R in hartile metabolice; grupuri ortologice (KO) identificate prin numere K in hartile metabolice globale si in hartile de cale specifice organismului care sunt generate computational: y patrate gene sau produsi genici identificate prin combinatia de coduri ale organismelor KEGG si identificatori ai genelor Cautarea in baza de date a hartilor de cale se face dupa cum se poate observa in figurile de mai jos:

9

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

rezultand

ii) KGML (KEGG Markup Language) KEGG Markup Language (KGML) reprezinta reprezentarea XML a hartilor de cale KEGG. KGML este un format de interschimbare a hartilor de cale care sunt desenate manual si updatate. KGML permite desenarea automata a cailor KEGG si asigura facilitate pentru analiza computational si modelarea retelelor de protein si a celor chimice. Fisierele KGML pentru hartile de cale metabolice contin doua tipuri de obiecte graf model, dupa cum patratele (enzimele) sunt legate prin relatii si cum cercurile (compusii) sunt legati prin reactii. Fisierele KGML pentru harti de cale non-metabolice contin doar aspectul referitor la modul in care patratele (proteinele) sunt legate prin relatii. Prefixul pentru identificatorul hartii de cale indica: y ko harta de cale de referinta este corelata la numerele K (identificatori KO) y ec harta de cale de referinta este corelata la numerele EC y org (cod de organism din trei sau patru litere) harta de cale specifica organismului leste corelata la gene iii) Metoda de acces Fisierele KGML pot fi obtinute din sectiunea Download KGML pentru fiecare harta de cale. 12. Software-ul KEGG i) Servere Web Urmatoarele instrumente web sunt dezvoltate si intretinute de catre Kanehisa Laboratories. KEGG Mapper Maparea cailor KEGG si instrumentele de mapare BRITE pentru interpretarea biologica a seturilor de date genomice, transcriptomice, metabolomice si a altor seturi de date pe scara larga. KEGG Atlas O interfata garfica avansata pentru explorarea hartilor globale KEGG.10

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

Caracteristici similare cu KEGG Mapper sunt deasemenea disponibile. ii) Instrumente Bioinformatice Instrumentele bioinformatice din urmatoarele trei categorii sunt disponibile la GenomeNet. Cu exceptia programelor standard pentru cautarea similaritarii secventelor si alinierea secventelor, instrumentele au fost desvoltate de catre Kyoto University Bioinformatics Center. Analiza secvetelor BLAST FASTA MOTIF Cautarea similaritatii secventelor Cautarea motivului secventei

CLUSTALW Alinierea multipla a secventelor si analiza filogenetica MAFFT PRRN Analiza genomica KAAS Adnotarea automata a genomilor (asignare KO) si maparea cailor sau BRITE

EGassembler Generarea automata a contigs consensuale dintr-un set de EST GENIES GECS Predictia retelei genice de catre integrarea bazata pe kernel a seturilor de date eterogene Predictia structurii glicanilor din date microarray Analiza chimica SIMCOMP Cautarea similaritatii structurilor chimice SUBCOMP Cautarea substructurilor chimice KCaM PathPred E-zyme PathComp Cautarea similaritatii structurilor glicanilor Predictia caii biodegradarii /biosintetice pentru un compus dat Predictia reactiilor enzimatice dintre compusi chimici Calcul posibil a caii de reactie

ii) Applicatii Desktop KegTools reprezinta aplicatii Java ce ruleaza pe platformele Mac OS X, Windows si Linux. In prezent, urmatoarele trei aplicatii desktop sunt disponibile gratuit: KegHier Pentru cautarea ierarhiilor functionale BRITE precum si pentru manipularea fisierelor text ierarhice create local.

KegArray Pentru analiza datelor microarray (profile ale expresiei genice si profile compuse) cu posibilitatea maparii BRITE si a cailor KEGG.

11

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

KegDraw Pentru desenarea structurilor compusilor chimici si a structurii glicanilor cu posibilitatea de a cauta in comparatie cu bazele de date KEGG.

iii) Serverul KEGG Mirror Serverul iKeg este un produs commercial distribuit de catre Pathway Solutions. Permite implementatea locala si personalizarea KEGG, precum si sincronizarea cu serverul web KEGG la GenomeNet. iKeg ruleaza pe Linux si Mac OS X. iv) KEGG API KEGG API (application programming interface) consta in interfata SOAP/WSDL si interfata REST a sistemului KEGG. Permite personalizarea analizei bazata pe KEGG, cum ar fi pentru cautarea si calculul cailor biochimice in procese celulare sau analiza universului de gene din gemoni complet secventiali. v) KEGG SOAP Userii pot accesa serverul KEGG SOAP prin tehnologia SOAP peste protocolul HTTp. Serverul SOAP vine impreuna cu WSDL-ul, care face usoara construirea unei librarii client pentru un limbaj computer specific. Astfel se permite utilizatorilor sa scrie propriile programe in diferite scopuri si sa automatizeze procedura de acces la serverul KEGG SOAP si retragerea rezultatelor. vi) KEGG REST Interfata REST este dezvoltata pe serverul kegg.jp. URL-uri disponibile: http://www.kegg.jp/entry/kid http://www.kegg.jp/pathway/mapid http://www.kegg.jp/brite/brid unde kid este indentificatorul unui obiect KEGG, mapid este un identificator al hartii de cale KEGG, iar brid este un identificator al unui fisier BRITE KEGG.

III. NetAffx1. The NetAffx Analysis Center NetAffx Analysis Center permite cercetatorilor sa coreleze rezultatele lor GEN GeneChip cu informatii de adnotare si design al tablourilor. Aceasta resursa asigura accesul la informatiile despre continutul tabloului, inclusiv secvente de proba si adnotari de gene. Microtablourile de expresii affymetrix sunt folosite cu precadere in cercetarea biomedicala. Aceste microtablouri constau in seturi de probe DNA, fiecare aleasa cu atentie pentru a inregistra expesii ale anumitor gene. Setul de probe ce au legatura cu o gena este numit set-proba, si secventa care este cel mai bine asociata cu regiunea transcrisa ce este interogata de catre setul-proba se numeste secventa reprezentativa. Informatiile statice ale fiecarui set-proba detaliaza secventele probei si descrie ce trebuiau sa interogheze probele. Adnotarea secventelor se refera la informatia despre secvente representative pentru un set-proba. Acestea include adnotarile disponibile in UniGene , GenBank, LocusLink , baze de date cu modele de organisme, SWISS-PROT , OMIM, etc.12

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

NetAffx este construit in jurul unei interfete de cautare SRS care permite userilor sa caute seturi-proba ce se potrivesc unui criteriu, inclusive termeni de adnotare, sis a identifice seturiproba relevante la o secventa DNA specizicata de user. Tablourile proba Affymetrix GeneChip permit generarea de expresii genice de inalta calitate si genotiparea datelor, iar cand este folosit corelat cu NetAffx Analysis Center, permite obtinerea valorii maxime din acea data. Asigura informatii biologice pentru seturile de probe de interes atat pentru Affymetrix, cat si pentru domeniul public. Folosind Analysis Center, se pot rapid corela rezultatelle proprii direct la adnotari in informatii despre secvente relevante pentru un analiza mai rapida si mai complexa a rezultatelor experimentale. 2. Arhitectura sistemului In NetAffx exista doua funtii importante, si anume una este accea de a asigura utilizatorilor descrieri detaliate a seturilor-proba individuale, iar cealalta este de a permite utilizatorilor sa grupeze seturile-proba in functie de tipul de adnotare sau categorie. Aceste functionalitati sunt asigurate prin intermediul unei sistem de management al bancilor de date, SRS (Sequence Retrieval System, LionBio) si a interfetei query. Pentru fiecare microtablou Affymetrix GeneChip catalogat, o banca de date numita Target sumarizeaza toate annotatiile pentru seturile de proba. De exemplu, banca de date HG-U133 este o compilatie de adnotari de seturi-proba si informatii despre secvente tinta pentru toate probele reprezentate in tablourile genomice umane. Componenta bancii de date pentru adnotare detine un domeniu detaliat al proteinelor si rezultatele analizei de similaritate inclusive alinierile. Toate bancile de date support sunt relationate cu banca de date Target in sistemul SRS, dupa cum este ilustrat in figura de mai jos:

3. Accesarea continutului integrat al unei game largi de baze de date Accesul la informatiile din bazele de date din domeniul public direct de pe calculatorul personal, prin intermediul oricarui browser este foarte simplu. Aceste baze de date cuprind o gama larga de resurese, dintre care: y GenBank y UniGene y GenPept y SWALL y RefSeq13

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

SCOP PFAM LocusLink KEGG Gene Ontology (GO) In plus, NetAffx Analysis Center ofera acces la secventele de informatii din baza de date de proiectare a tablourilor. y y y y y

4. Viitoare directii Ontologia genica (OG) este acceptata pe scara larga ca standard pentru vocabularul ce descrie procesele biologice, functiile moleculare si componentele chimice ale genelor. In plus fata de furnizarea termenilor OG pentru adnotarea genelor, se asigura vederi grafice interactive a subgrafurilor OG ale proceselor biologice. Aceste grafuri permit userului sa determine vizual relatiile dintre un set de probe pe baza locatiilor lor in graful OG, si astfel contribuind la interpretarea biologica a unui set complex de rezultate. Mai mult, date fiind lungimile variabile (sau gradul de rezolutie) al cailor OG asociate cu fiecate set-proba, se pot examina termenii pentru un set de probe bazandu-ne pe un nivel din graf. Prin click pe un termen OG specific din subgraf, se va afisa o lista de seturi de probe cu adnotari sau legaturi la acest termen. Aceasta functionalitate permite partitionarea setuirlor-proba pe baza functiilor moleculare, proceselor biologice sau componentelor celulare ale genelor. In prezent se dezvolta o abordare computationala pentru gasirea relatiilor in graful ontologiei genice a proceselor biologice. Aceasta metoda va asigna o semnatura fiecarui setproba, astfel incat sa semnalizeze daca functionalitati la nivel ridicat sunt prezente sau nu. Aceste categorii functionale includ termeni ca cresterea celulei, moartea celulei, adeziunea celulelor, embriogeneza, imbatranirea, etc. O matrice de seturi-proba si functionalitatea ontologiei genice pot fi sortate astfel incat subgrupuri de seturi-proba relationate functional pot fi usor identificate. Impreuna cu caile de semnalizare,amprentele OG pot fi utile pentru a determina rapid relevanta biologica a seturilor-proba din experimente asupra expresiilor genice. Se fac eforturi pentru a gasi cai de oricare tip in conjunctie cu grupul GenMAPP group de la Gladstone Institute.

14

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

ConcluziiAtat baza de date KEGG, precum si baza de date NetAffx, reprezinta resurse complexe si vaste de informatii biologice adunate de la genomi complet secventiati, gene, proteine, cai si compusi chimici, referitoare la peste o suta de specii diferite, informatii ce sunt folosite cu succes in bioinformatica. Pe langa stocarea de informatii biologice, aceste baze de date, sa le numim asa, ofera diferite instrumente software de utilitate majora in studiul biostatistic si bioinformatic.

15

Biostatistica si Bioinformatica

Badau Sorina, IASTE, An I

BIBLIOGRAFIEhttp://www.genome.jp/ http://www.genome.ad.jp/kegg/ http://en.wikipedia.org/wiki/KEGG Ogata, H., Goto, S., Sato, K., Fujibuchi, W., Bono, H., and Kanehisa, M.; KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 27, 29-34 (1999) 5) NetAffx: Affymetrix probesets and annotations (http://www.ncbi.nlm.nih.gov/pmc/articles/PMC165568/) 6) NetAffx Analisys Center. Users guide.1) 2) 3) 4)

16