banche dati parte 1 - bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/02_a_banche_dati_ncbi.pdf ·...
TRANSCRIPT
Laboratorio di Bioinformatica I
Banche datiBanche datiParte 1
Dott. Sergio Marin Vargas (2014 / 2015)
Introduzione a NCBI
National Center for Biotechnology Information (NCBI)
http://www.ncbi.nlm.nih.gov/
NCBI Databases
NCBI Databases e Servizi
International Nucleotide Sequence Database Collaboration
http://www.insdc.org/
http://www.ddbj.nig.ac.jp/
Le sequenze su NCBI
http://www.ebi.ac.uk/enahttp://www.ncbi.nlm.nih.gov/genbank/
Le sequenze su NCBI (GenBank) sono
Sincronizzate con l’ENAdell’EBI (EMBL-Bank) e
con DDBJ
Cosa troviamo in NCBI
Banche dati (alcuni esempi):
• GenBank: database primario di sequenze nucleotidiche (NIH geneticsequence database - National Institutes of Health)
• RefSeq: database non ridondanti di sequenze genomiche, di trascritti e
proteiche.
• PubMed and PubMed Central: accesso alla letteratura biomedica• PubMed and PubMed Central: accesso alla letteratura biomedica
• Omin: collezione di geni umani e fenotipi genetici
Servizi (alcuni esempi):
• Entrez (Gquery): interrogazioni incrociate ai diversi databases di NCBI
• BLAST: servizio di ricerche alle banche dati di sequenze mediante algoritmo
BLAST.
• VAST: servizio di ricerche per similarità di struttura
• Software and databases for download
Esercizio 1 Gquery (Entrez)
� Aprire il browser e andare alla pagina iniziale di NCBI:
http://www.ncbi.nlm.nih.gov/
� Individuare i database in NCBI che sono stati visti nella teoria:
� Eseguire una ricerca con la parola “hiv-1” (specie)
Quanti taxa ci sono?� Quanti taxa ci sono?
� Quante sequenze nucleotidiche?
� Quante proteine?
� Di queste, quante con struttura risolta?
� Quanti geni e quanti cluster UniGene?
� Si noti il rapporto tra UniGene e EST
� Perché ci sono più record in Gene che in UniGene se Gene è più curato di UniGene (suggerimento: leggere cosa è UniGene) ?
Esercizio 1: Gquery
Esercizio 1: Risultato Gquery (Entrez)
Risultato di una ricerca NCBI
� Aprire il browser e andare alla pagina iniziale di NCBI:
http://www.ncbi.nlm.nih.gov/
� Eseguire una ricerca con la parola “beta globin” (proteina)
� Analizzare il risultato della ricerca nel database “Protein”
Risultato in Entrez di NCBI
Opzioni di
visualizzazione Nome banca dati Stringa di ricerca Opzioni di
download
Risultati trovati
(records)
NCBI: struttura del risultato di una ricerca
Filtri attivi (se
ce ne sono)
Un risultato
(record)
Filtri (con la
spunta quelli
attivi)
NCBI: struttura del risultato di una ricerca
In quali organismi
sono stati trovati
proteine “beta globin”
Altre banche
dati in NCBI
Stringa di
ricerca
dettagliata
NCBI: Ricerca avanzataRicerca avanzata
Filtri attivi
Inserimento
manuale di
stringhe di
ricerca
Costruttore di
ricerche
Ricerche
precedenti
NCBI: Ricerca avanzata
Per avere l’elenco di
Permette di specificare i campi dei record da usare per la ricerca, di combinarli con operatori logici e di combinare anche ricerche recedenti (History).
Campi da ricercare
Per avere l’elenco di
tutti i possibili valoriOperatore logico
Una ricerca precedente può essere indicata con “#n”. Così si combina con altre opzioni di ricerca o con altre ricerche (e.g. #5 AND #23)
Esercizio 2 Ricerca su NCBI
� Ripetere la ricerca per “beta globin” sul database Gene.
� Aggiungere un filtro solo per homo sapiens
� Come cambia la stringa in “search details”?
� Filtrare solo i “geni codificanti proteine”
� Eliminare l’ultimo Filtro
� Recuperare il record per HBB hemoglobin, beta
[Homo sapiens] (con ID 3043) e aprirlo
� Su quale cromosoma ci troviamo?
� Quanti riferimenti bibliografici ci sono?
� Quante interazioni sono registrate?
� Individuare l’annotazione di Gene Ontology (GO)
� Qual è il codice refseq del mRNA e proteina?
Ricerca di una sequenza nucleotidica
Molti batteri si sono evoluti acquisendo una resistenza agli antibiotici.
Un esempio è il Mycobacterium tuberculosis, agente responsabile della
tubercolosi.
La domanda che ci si pone è:
Esercizio 3 Ricerca su NCBI
Ci sono sequenze nucleotidiche nel Mycobacterium tuberculosis con
la caratteristica “Penicillin-binding”?
Passi:
1. Cercare nella banca dati Nucleotide tutte le sequenze per “Penicillin
binding” (notare le virgolette che indicano la stringa e non le due parole
singolarmente). Quanti item (record) ci sono ?
2. Cercare solo le sequenze di Mycobacterium tuberculosis.
3. Vogliamo solo sequenze non ridondanti e ben annotate (refseq). Quanti
record troviamo ?
NCBI – Estrazione di sequenze
nucleotidiche
� Vogliamo scaricare (fare download) le sequenze
nucleotidiche dei trascritti del recettore della transferrina
(TFR1) per l’uomo, una proteina coinvolta nell’assorbimento
del ferro nelle cellule (malattia emocromatosi).
� Cominciamo ricercando sul dal database Nucleotide. � Cominciamo ricercando sul dal database Nucleotide.
� Limitiamo la ricerca ad homo sapiens.
� Limitiamo la ricerca solo al database RefSeq.
� Limitiamo la ricerca solo ai trascritti (mRNA).
� In “Display Settings” selezionare “FASTA”
� In “Send” selezionare “Complete Record” e “File”
Formato FASTA x Nucleotidi
>gi|189458818|ref|NM_001128148.1| Homo sapiens transferrin receptor (TFRC), transcript variant 2, mRNAACGCACAGCCCCCCTGGGGGCCGGGGGCGGGGCCAGGCTATAAACCGCCGGTTAGGGGCCGCCATCCCCTCAGAGCGTCGGGATATCGGGTGGCGGCTCGGGACGGAGGACGCGCTAGTGTTCTTCTGTGTGGCAGTTCAGAATGATGGATCAAGCTAGATCAGCATTCTCTAACTTGTTTGGTGGAGAACCATTGTCATATACCCGGTTCAGCCTGGCTCGGCAAGTAGATGGCGATAACAGTCATGTGGAGATGAAACTTGCTGTAGATGAAGAAGAAAATGCTGACAATAACACAAAGGCCAATGTCACAAAACCAAAAAGGTGTAGTGGAAGTATCTGCTATGGGA
Intestazione Sequenza
Nucleotidica
AATGCTGACAATAACACAAAGGCCAATGTCACAAAACCAAAAAGGTGTAGTGGAAGTATCTGCTATGGGACTATTGCTGTGATCGTCTTTTTCTTGATTGGATTTATGATTGGCTACTTGGGCTATTGTAAAGGGGTAGAACCAAAAACTGAGTGTGAGAGACTGGCAGGAACCGAGTCTCCAGTGAGGGAGGAGCCAGGAGAGGACTTCCCTGCAGCACGTCGCTTATATTGGGATGACCTGAAGAGAAAGTTGTCGGAGAAACTGGACAGCACAGACTTCACCGGCACCATCAAGCTGCTGAATGAAAATTCATATGTCCCTCGTGAGGCTGGATCTCAAAAAGATGAAAATCTTGCGTTGTATGTTGAAAATCAATTTCGTGAATTTAAACTCAGCAAAGTCTGGCGTGATCAACATTTTGTTAAGATTCAGGTCAAAGACAGCGCTCAAAACTCGGTGATCATAGTTGATAAGAACGGTAGACTTGTTTACCTGGTGGAGAATCCTGGGGGTTATGTGGCGTATAGTAAGGCTGCAACAGTTACTGGTAAACTGGTCCATGCTAATTTTGGTACTAAAAAAGATTTTGAGGATTTATACACTCCTGTGAATGGATCTATAGTGATTGTCAGAGCAGGGAAAATCACCTTTGCAGAAAAGGTTGCAAATGCTGAAAGCTTAAATGCAATTGGTGTGTTGATATACATGGACCAGACTAAATTTCCCATTGTTAACGCAGAACTTTCATTCTTTGGACATGCTCATCT....
NCBI – Estrazione di sequenze
proteiche
� Vogliamo scaricare (fare download) le sequenze proteiche
del recettore della transferrina (TFR1), ma che abbiano la
struttura risolta e siano complessati (legati) a un qualsiasi
ligando.
� Cominciamo ricercando sul dal database Protein. � Cominciamo ricercando sul dal database Protein.
� Limitiamo la ricerca solo al database PDB (quelli con
struttura risolta).
� In ricerca avanzata cerchiamo per “TFR1” e “complex” in
tutti i campi
� In “Display Settings” selezionare “FASTA”
� In “Send” selezionare “Complete Record” e “File”
Formato FASTA x Proteine
>gi|48425720|pdb|1SUV|B Chain B, Structure Of Human Transferrin Receptor-transferrin Complex
LYWDDLKRKLSEKLDSTDFTSTIKLLNENSYVPREAGSQKDENLALYVENEFREFKLSKVWRDQHFVKIQ
VKDSAQNSVIIVDKNGRLVYLVENPGGYVAYSKAATVTGKLVHANFGTKKDFEDLYTPVNGSIVIVRAGK
ITFAEKVANAESLNAIGVLIYMDQTKFPIVNAELSFFGHAHLGTGDPYTPGFPSFNHTQFPPSRSSGLPN
IPVQTISRAAAEKLFGNMEGDCPSDWKTDSTCRMVTSESKNVKLTVSNVLKEIKILNIFGVIKGFVEPDH
YVVVGAQRDAWGPGAAKSGVGTALLLKLAQMFSDMVLKDGFQPSRSIIFASWSAGDFGSVGATEWLEGYL
SSLHLKAFTYINLDKAVLGTSNFKVSASPLLYTLIEKTMQNVKHPVTGQFLYQDSNWASKVEKLTLDNAA
Intestazione
SSLHLKAFTYINLDKAVLGTSNFKVSASPLLYTLIEKTMQNVKHPVTGQFLYQDSNWASKVEKLTLDNAA
FPFLAYSGIPAVSFCFCEDTDYPYLGTTMDTYKELIERIPELNKVARAAAEVAGQFVIKLTHDVELNLDY
EEYNSQLLSFVRDLNQYRADIKEMGLSLQWLYSARGDFFRATSRLTTDFGNAEKTDRFVMKKLNDRVMRV
EYHFLSPYVSPKESPFRHVFWGSGSHTLPALLENLKLRKQNNGAFNETLFRNQLALATWTIQGAANALSG
DVWDIDNEF
Sequenza Proteica
� Vogliamo cercare la sequenza nucleotidica e
amminoacidica della rodopsina (rhodopsin), il pigmento
visivo che innesca la visione nei vertebrati
� Cominciamo dal database Nucleotide. Quante sequenze ci sono per la
ricerca “rhodopsin”?
� Limitare la ricerca al database RefSeq. Quanti record ci sono?
Esercizio 4 Estrazione di sequenza
Nucleotidica
Limitare la ricerca al database RefSeq. Quanti record ci sono?
� Limitiamo la ricerca ad homo sapiens (human), usando l’opzioneadvanced search. Quante sequenze nucleotidiche trova?
� Visualizziamo l’entry “Homo sapiens chromosome 3, GRCh38 Primary Assembly”. Quante bp (base pair) ci sono nella sequenza?
� Visualizziamo l’entry “Homo sapiens rhodopsin (RHO), RefSeqGeneon chromosome 3”. Quante bp ci sono nella sequenza?
� Perche la differenza di dimensioni ?
� Ci sono malattie genetiche associate a questa entry? Di tipo solo autosomico dominante? (OMIM)
� Scaricare il fasta di solo il gene rhodopsin.
Esercizio 5 Estrazione di sequenza
amminoacidica (proteica)
� Se vogliamo adesso scaricare la sequenza amminoacidica,
della rodopsina (rhodopsin) per l’uomo su quale database
dobbiamo andare e quali filtri utilizzare ?
� Scaricare il FASTA della proteina e salvarlo in una� Scaricare il FASTA della proteina e salvarlo in una
directory locale.
� Collegarsi ad OMIM sfruttando il link sulla destra. Quanti
records si ottengono? Trovare almeno due mutazioni
puntiformi associate a retinite pigmentosa.
(Suggerimento: leggere!!!)
� Ricercare la proteina “Hemoglobin subunit beta” di Homosapiens. Filtrare solo i record con RefSeq selezionare ilrisultato con codice RefSeq NP_000509.1 (accession).
1) Individuare
• lunghezza,
• peso molecolare,
Esercizio 6 NCBI Proteins
• peso molecolare,
• il refseq del trascritto
2) Salvare localmente la sequenza FASTA della PROTEINA
3) Salvare localmente la sequenza FASTA del TRASCRITTO
4) Ci sono SNP? Cos’è un SNP?
5) Ci sono malattie mendeliane note legate a questa proteina?
6) Ci sono strutture legate a questa proteina?
• Quante risolte per NMR e quante mediante Cristallografia (X-Ray) ?
NCBI – PubMed
Stringa di ricercaOpzioni di
visualizzazione
Opzioni di
download
Risorse
correlate:
Filtri
Risultati (tipicamente articoli, ma anche review, trial clinici, ecc)
correlate:•Trend nei risultati•Ricerche simili•Articoli citati•Articoli che citano quello corrente•Ecc…
Stringa di
ricerca
dettagliata
NCBI – PubMed - Entry Rivista, anno,
titolo,
autori
Opzioni di
visualizzazione
Opzioni di
download
Risorse
correlate:•Articoli che citano quello corrente
Abstract
Tipo della pubblicazione (in
questo caso, una review)
quello corrente
•Collegamenti abanche datiche contengonoinformazioni suitemi dell’articolo
Termini MeSH (Medical Subject Headings)
Codice univoco, PubMedID
� Trovare le pubblicazioni correlate con le parole
“ethics of liver transplantation”
� Controllare in “Search Details” come viene costruita
Esercizio 7 NCBI Pubmed
Controllare in Search Details come viene costruita la “query” di ricerca nel database di Pubmed.
� Trovare gli articoli riferiti ai bimbi, bambini di 23 mesi o meno (suggerimento: utilizzare i filtri).
� Ricordarsi di pulire i filtri
� Parte A.
� Con una ricerca in Pubmed, trovare le pubblicazioni che
siano relazionate con
� “circadian rhythms” e che siano relazionate con “cortisol” o “melatonin”
Esercizio 8 NCBI Pubmed
o “melatonin”
� in Humans.
� Parte B.
� Trovare le pubblicazioni correlate con “heart surgery”
(provare con le virgolette e senza).
� Utilizzando “History” nella ricerca avanzata,
� Combinare questa ricerca con quella della parte A. Quante
pubblicazioni trovate ?
Trovare pubblicazioni specifiche, utilizzando laricerca avanzata oppure il “search box”
� Parte A:� Gli articoli pubblicati nel 2000 in The New England Journal of
Esercizio 9 NCBI Pubmed
� Gli articoli pubblicati nel 2000 in The New England Journal ofMedicine. Riferiti a “hip protector” (to prevent hip fractures)
� Parte B:� Gli articoli dove “A. M. Adelman” è il primo nome della
pubblicazione. Quanti articoli ci sono ?
� Parte C:� Cercare le pubblicazione del Volume 5, issue 4 della rivista PLoS
Pathogens. Quanti articoli sono stati pubblicati in quel fascicolo,in quale anno/mese?