struttura e funzione del gene evoluzione dei genomi 15-16/struttura ed ev... · polimorfismo nella...
TRANSCRIPT
STRUTTURA E FUNZIONE DEL GENE
EVOLUZIONE DEI GENOMI
GENOME: total genetic information carried by a cell or organism
GENE: physical and functional unit of heredity, which carries
information from one generation to the next. In molecular terms,
it is the entire DNA sequence (including exons, introns and
noncoding transcriptional control regions) necessary for
production of a functional protein or RNA
Lodish – Molecular Cell Biology
ATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGGATGACTTTCCTCCAGCTACGTCTCAAC
TATTCAGCCCAGGAGCGCCTTTAGATGTGCACCCACTTAATCCATCCAATCCAGAGACTGTATTTCATTCACATCTTGGTGCAGTCAAAAAGGCACCCAGTGACTTTTCATCTGTGGATCTAAGCTTCTT
ACCAGATGAACTTACCCAAGAAAATAAAGACCGAACTGTCACTGGAAACAAAGTCACAAATGAGGAAAGCTTTAGGACTCAAGATTGGCAAAGTCAGTTGCAGTTGCCTGATGAACAAGGCAGTGGG
CTGAACTTGAATAGCAACAGTTCACCAGATACCCAGTCATGTCTGTGCTCTCATGATGCTGACTCCAACCAGCTCTCTTCAGAAACACCAAATTCCAATGCCTTACCTGTGGTATTGATATCATCCATGA
CACCAATGAACCCTGTTACAGAATGTTCTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCTTTGAATGCCAAAAACACAGAATATA
ATCCAAAGAGGTTTGCTGCAGTCATAATGAGGATCCGAGAGCCAAGGACCACAGCTCTTATATTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGACGAGTCTCGGCTGGCAGCAAGA
AAGTATGCTCGCGTGGTGCAGAAGCTGGGGTTCCCCGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGCAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGC
AGTTCAGTAGTTATGAGCCTGAACTGTTCCCTGGCCTTATTTATAAGATGGTGAAACCGCAGGTTGTGCTGCTCATCTTTGCATCTGGAAAGGTTGTACTGACAGGTGCCAAAGAGCGTTCTGAGATCTA
CGAAGCATTTGAAAACATGTATCCTATTCTAGAAAGTTTTAAGAAAGTCTGAATGGAGGAGGACATATACCTGGACCTCTTCCTGGATCCTTATACCATCCAGGATGACTTTCCTCCAGCTATGTCTCAA
CTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGAGACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATCTGTGGATCTAAGCTTCTTACC
AGATGAACTTACCCAAGAAAATAGAGACCAAACTGTCACTGGAAACAAGCTGGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCGATGAACATGGCAGTGAGCTG
AACTTGAATAGCAACAGTTCACCAGATCCCCAGTCATGCCTGTGCTTTGATGATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGGCATTGATAGCATCCATGATGC
CAATGAACCCTGTTCCAGGATTTTCTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCCCTGAATGCCAAAAACACAGAATATAACC
CAAAGAGGTTTGCTGCAGTAATAATGAGGATCCGAGAGCCAAGGACAACAGCTCTCATCTTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGAGGAGTCTCGGCTGGCAGCGAGAAA
GTATGCTCGTGTGGTGCAGAAGCTCGGGTTCCCTGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGCAG
TTCAGTAGTTATGAACCTGAACTTTTCCCCGGCCTTATTTATAAGATGGTAAAACCACAGGTTGTGTTGCTAATCTTTGCATCTGGAAAAGTTGTGTTAACAGGTGCCAAAGAGCGTTCTGAGATCTATG
AAGCATTTGAAAACATGTATCCTATTCTAGAAAGTTTTAAGAAAGTCTGAATGGAGCAGGAGGAGACCTACCTGGAGCTCTACCTGGACCAGTGCGCCGCTCAGGATGGCCTTGCCCCACCCAGGTCTC
CCCTGTTCAGCCCAGTTGTACCTTATGATATGTACATACTGAATGCATCCAATCCGGATACTGCATTTAATTCGAACCCTGAAGTCAAAGAAACATCTGGTGATTTCTCATCTGTGGATCTTAGCTTCCTA
CCAGATGAAGTTACCCAGGAAAATAAAGACCAGCCTGTCATTAGCAAACACGAAACTGAAGAAAATTCTGAAAGCCAAAGTCCACAAAGTAGGTTGCCATCACCCAGCGAACAGGACGTTGGGCTGG
GCTTAAACAGCAGCAGTTTGTCAAATTCCCATTCACAGCTGCACCCTGGTGATACTGACTCAGTCCAGCCCTCTCCTGAGAAACCAAACTCCGACTCCTTGTCTCTGGCATCCATAACTCCCATGACACC
AATGACCCCTATTTCAGAATGTTGTGGAATTGTACCTCAACTACAGAATATAGTTTCCACTGTAAACCTGGCCTGTAAGTTGGATCTGAAGAAAATAGCTTTGCATGCAAAAAATGCAGAATATAACCC
AAAGAGGTTTGCTGCTGTCATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAAAT
ATGCTCGTGTGGTGCAGAAGCTTGGGTTCCCTGCCAGATTCCTCGATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAGATTTCCCATCAGGCTGGAAGGTTTGGTGCTAACCCATCAGCAGTT
CAGTAGTTACGAGCCTGAACTGTTTCCTGGTCTTATTTATAGAATGGTAAAACCACGAATTGTGTTGCTTATCTTTGTATCTGGAAAAGTTGTGTTGACAGGTGCCAAAGAACGTTCTGAGATCTATGAA
GCATTTGAAAACATCTATCCTATTCTAAAAGGTTTTAAAAAAGCCTGAGAAGTCCCCTGGGTAACTTCCAGGCAGCTTCATTTCTGAAGAGTCCAAACTGCAGCATAGAGGACTTATGAAAAACTGTAA
AAAATTGGTTTTAAGTGTTCCATTAAACCCAAAGAAAACAGTCACACAACAAAGCCAGACACAGAAAATTAGGGTGACATGTTTCCTGTCATATGTGGAGCCTAGAGAACATAGAGATGATGTGAAAG
CAGAAGGAGCTATCAAGAAAAAGGAAAGCAGATGGGGCAGCAGATCCATGGGAATACTGGCAGAACTGTATAATGGAAGAATGTCGTATGCACATATGAACATGTCATAATGAAACCTAGTATTTTGT
ACAGTTAATATGGACTAGACAATAGCACAAAGAAATTAGAGATTAGTCTAGCTATATGAAGAGGCTACATCAAAGATCACTCCTTTTTGATGGACAAATTTAATTCCTTATAACTGTAGAGCTGAGATA
TTCACTTGCTTGTCAGACATTAAATGTATCCCACTCTTAGGGTCTAGAAGTTACCCAGACTTCTTGTACCATGGTCCCATCTATCTTCAAAGTCAGCAGTGACGACTCTGCCTTATGACAAGGTCATCTCC
TGCTTTCAAATCCCTCCCAAAGAGTGGCCAATTCCTCCTTGGCTGCTCAGTCAGTAAGGGCAGGCTTGGATCCTTTCCCTTTCCTAACAATGGACTTGGAATTTTAATTACATCTTCAAAACCCAAGAGC
ATTTGGTTTTTTTTAGATAACTGGGAGATACATTTGGAGATAGGGATTTGGGGAGCCACCGAAACATTCTACCTACCATAGGAAATAGTTATAAATCTATTTTACTGGCTGGAGAGATGGCCAAGCAGTT
AAGAATACTTTCTGCTTTTTCAAAGGATAGAAATTCTGTTCCTAGCACCCACACTGGGCTTCTTAGTGATTCCAACTCTACAGGACCTGATGCCTCCTTCTCTCTGGCTTCCTTAGATACCAGTTTGTACT
GGCACATGCATATGCACAGGAGAAGGCTCTCTCTCTCTCTCTCCCCCCCCCCCCTCTCTCTCTCTCACACACACACACAAGATGGTGAGATATAATTAATAAAATAAAGTAAAATTTGGATCTGTTTTAG
TCAGTTTGGGATGCCATAATAAAACACCACAAACTGGGCAGTTTAAACCACAGAAATTTCCTTCATAGTTCTGAAGGCTGGAGATCTAAGATCAAGGTCCCTGCAGATTTGGTCTCTCCTGTAGCAATC
CTCCATCTTTCCTTTTAGGTAGCTGCCTTAATGTTGCTCTTTTTACAGCTTTTTCTTTGTATTTCTATGAAAACATCAGACATATTGGATTGGGGCTTCTACACATGATCTTCATGGGATAAGCAATAACCA
TAGTTACTGATCTGTGAGGCTGGTTCTGAGTGTGCAGCTCAGTAGGCTGTCTCATTTACAGACACTATGACATTACATCACACATCACTATATAAATCCCAGATTTTTCAAAAGGATCCCCCTATTTTTAT
TGGAATGTCTGACTCTAGTGCAGGTTATCCAAGCTCCATTCTCAGGTTCGTTTTATCCACCAAGACTGAGCAGATGAGCTGGGCACAGAGACATGATGATGAATAATTTAAATTGTTCCTTTTAAACAGT
AGAATCAAGTAAGGAAGATTTAAAAATACATTTTGCAATCTCTTACATCAAAGTGTCTTCTTCTAGAACAGTTCAATACAGTTAAGCTAAGACATTTGAATTAAAGCGTTTAAGAAAGAAAAGCTTCTCT
GGATATTTGGTTTTACATTAACTTCTTGAGTTGTCTGAACCCTAACTGTGGAATTTGCACAGCTGTAGGCAAATTCTCTGTAATAGGTGAAAATCTACCTGGGGTGTGAAGGTGAAGAATAATTACAGAA
ATATCACATCTGAATAGATGAGGGGATTCAGCGGGCAAGGGTGCTTGCCACCAAGCCTGACACTCTGGGTTTGATCCTTGTGTTTCTTCCAGAGCTGGAAGGAGAGAACCTACTCCTGAAAATTGTCTT
CTGACCATAACATGAGCTCTGCACTGTGCATGTGTCCATGCACACATGCCAATGAAGATAAATCAATATTAGAAATATCACATCTAAGAATCTGGGTATGGTGATGCTCATGCATGTTGTAACCCCAGA
ACTTAGGAGCTGGAGGATATACAAGTTTGTGGCTAGCCTGGACTACATGAGAAGAGAAGGGGGAAGGGAAAGAGAAGGAAAAGAAGAAAAGAAAAGGAAAAGGATAAGGATAAAGGCAGAAGAGA
AAAGCATTCTTTTCTCACTTGCACAATGAGAAAACCTTATCATGCTACTCTACTGGAAGCACTAGTCTCGGCCCTCCTCTTCTTCTGGGTGCCACCAGCTGTGTCTTGCCTGGCTCATCAACTCCTTCTCT
GCTTCTCACCTGACTCCTCAGCTCATTCACAGCATCTGTGCAAGGCAGCAGAGCTGGTCCCGCCTCACTGCGTGCTCCCTGAGGCTGATAAAAGGTATCTGCTCCCACAGCCAGACTGGTACTAACAAA
GCTTCTTCCACTTGCCTGGACGCTGATTCCTTTGCTTGTCCTCAGCTCTACGATGACTTTCCTCCAGCTATGTCTCAACTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGA
GACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATCTGTGGATCTAAGCTTCTTACCAGATGAACTTACCCAAGAAAATAGAGACCAAACTGTCACTGGAAACAAGCT
GGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCGATGAACATGGCAGTGAGCTGAACTTGAATAGCAACAGTTCACCAGATCCCCAGTCATGCCTGTGCTTTGATG
ATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGGCATTGATAGCATCCATGATGCCAATGAACCCTGTTCCAGGATTTTCTGGAATTGTGCCTCAATTACAGATGAC
TTTCCTCCAGCTATGTCTCAACTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGAGACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATC
TGTGGATCTAAGCTTCTTACCAGATGAACTTACCCAAGAAAATAGAGACCAAACTGTCACTGGAAACAAGCTGGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCG
ATGAACATGGCAGTGAGCTGAACTTGAATAGCAACAGTTCACCAGATCCCCAGTCATGCCTGTGCTTTGATGATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGG
CATTGATAGCATCCATGATGCCAATGAACCCTGTTCCAGGATTTTCTGGAATTGTGCCTCAATTACAAGAACTTAGGAGCTGGAGGATATACAAGTTTGTGGCTAGCCTGGACTACATGAGAAGAGAAG
GGGGAAGGGAAAGAGAAGGAAAAGAAGAAAAGAAAAGATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTC
TCGACTTGCAGCAAGAAAATATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAA
ATATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAAATATAATGAGGATCCGAG
Struttura del GENE
GENE procarioticoGenoma di E. coli
GENE procariotico
Sequenze regolatrici a monte
della sequenza codificanteSequenze codificanti
OPERONE
Sequenze terminatrici
GENE procariotico
Promotori
GENE procariotico
Sequenze codificanti
ATGGTATAT-------------------------------TAA
MET VAL TYR STOP
ORF
(Open Reading Frame)
GENE procariotico
Promotore Operone
Sequenze codificanti
Terminatore
A B C
GENE procariotico
Promotore Operone
Sequenze codificanti
Terminatore
A B C
mRNA mRNA mRNA
Proteina Proteina Proteina
Promotore Operone
Sequenze codificanti
Terminatore
A B C
GENE procariotico
Repressione
Nessuna espressione
GENE EUCARIOTICO
GENI DELLA I CLASSE
GENI DELLA II CLASSE
GENI DELLA III CLASSE
RNA RIBOSOMIALE – rRNA (28S-5,8S e 18s)
RNA MESSAGGERO – mRNA
Piccoli RNA nucleari – snRNA
microRNA - LncRNA
RNA TRANSFER – tRNA
Piccoli rna nucleolari – snorna
Piccoli rna citoplasmatici - scrna
GENE EUCARIOTICO
GENE EUCARIOTICO
GENE EUCARIOTICO
GENE EUCARIOTICO
GENE EUCARIOTICO
Promotore
GENE EUCARIOTICO
Promotore
GENE EUCARIOTICO
GENE EUCARIOTICO
Sequenza
codificante
modulare
GENE EUCARIOTICO
Segnale di
poliadenilazione
23
I geni eucariotici sono monocistronici
Eccezioni: Unità di trascrizione policistroniche risolte in mRNA maturi
monocistronici per trans-splicing (es in tripanosomi, nematodi,
platelminti); uso di IRES, reinizio della traduzione o frameshift
traduzionale
I geni eucariotici non mostrano nessuna evidente
relazione tra localizzazione e l’attività funzionale
(functional clustering) o con l’espressione spazio-
temporale
Eccezioni: Raggruppamento di geni con funzione correlata, quali geni
Hox, geni per emoglobine e geni per immunoglobuline (duplicazioni in
tandem?)
Organizzazione genica negli eucarioti
25
Il processamento del precursore policistronico è associato al Trans
Splicing delle estremità 5’ degli mRNA e alla poliadenilazione delle
estremità 3’ per generare i trascritti monocistronici.
Taxon EntitàTripanosomi (Euglenozoa) tutti gli RNACnidari alcuni RNAPlatelminti (Metazoa Acoelomata) pochi RNANematodi (Metazoa Pseudocoelomata) molti RNACiona intestinalis/Oikopleura dioica molti RNA
Organizzazione genica negli eucarioti
Alcuni geni eucariotici sono policistronici
26
Geni codificanti per proteine
- geni presenti in unica copia (single-copy genes)
- geni omologhi presenti in copie multiple ed organizzati in famiglie geniche
I membri di una stessa famiglia genica possono essere localizzati in
unico cluster, dispersi, o localizzati in più cluster:
Geni in cluster:
-globin (7), growth hormone (5), Class I HLA heavy chain (20),….
Geni dispersi:
Pyruvate dehydrogenase (2), Aldolase (5), PAX (>12),..
Geni localizzati in più cluster:
HOX (38 – 4), Histones (61 – 2), Olfactory receptors (>900 – 25),…
28
La struttura dei geni eucariotici
CDS 3’UTR3’UTR5’UTR
mRNA
esone
GENE
esone esone
TRASCRIZIONE
introne
TRADUZIONE
introne
TSS
Mediana Media
Numero di esoni 7 8,8
L introni (bp) 1023 3365
L 5'UTR (bp) 240 300
L CDS (bp) 1100 1340
L 3'UTR (bp) 400 770
L gene (bp) 14000 27000
Caratteristiche
dei geni umani
Nel genoma umano non si osserva una distribuzione omogenea dei
geni. La più alta densità genica si osserva nel chr 19, mentre il chr 13 e
Y mostrano la più bassa densità.
29
I geni eucariotici presentano una grande varietà di strutture e dimensioni.
Ad esempio nel genoma umano:
Il più grande:
Distrofina (2.4 Mb, la sua
trascrizione richiede circa 16h)
Il più piccolo:
tRNAGLU (69 bp)
Il numero di esoni può variare da 1 (geni privi di introni come molti geni per
ncRNA, interferoni, istoni, ribonucleasi, HSP, GPCR, ecc.) sino a 363 (Titina).
Le dimensioni degli esoni e degli introni sono estremamente variabili.
A fronte di esoni costituiti da pochi nucleotidi, l’esone più grande è presente nel
gene per ApoB (7.6 kbb). Anche le dimensioni degli introni possono variare da
pochi nucleotidi fino a 800 kbp (gene WWOX).
Le proteine codificate possono variare nelle dimensioni da pochi residui (piccoli
ormoni) sino a molte migliaia (Titina, 38.138 aa).
La struttura dei geni eucariotici
GENE EUCARIOTICO
Può un gene codificare per diverse proteine?
Uno stesso gene può codificare per proteine indirizzate a diversi compartimenti cellulari: l’esempio del gene NFS1
L’isoforma che codifica per la proteina mitocondriale (457 aa) contiene un peptide segnale e un dominioaminotrasnferasico.
L’altra isoforma, che deriva sa un sito di inizio alternativo della trascrizione codifica per una proteinapiù corta (397 aa) priva del peptide segnale ma contenente il dominio aminotransferasico.
La proteina codificata dal gene NFS1 rimuove lo zolfo dalla cisteina formando alanina. Questo gene utilizzasiti di inizio alternativi della trascrizione e quindi traduzione per generare una isoforma mitocondriale ed unaisoforma citoplasmatica. La selezione del sito di inizio della traduzione è regolata dal pH citosolico.
GENE EUCARIOTICO
Può un gene codificare per diverse proteine?
X
Uno stesso gene può esprimere proteine con funzioni opposte: l’esempio dell’attività della Caspasi 9 (CASP9)
La forma costitutiva della proteina (CASP9, 9 esoni, 416 aa) induce apoptosi. Essa contiene un Caspase recruitment domain (CARD) e un dominio caspasi Peptidase_C14.
L’isoforma più corta della proteina (CASP9S, 5 esoni, 266 aa) contiene un dominio Caspase recruitment domain (CARD) e un dominio tronco della Peptidase_C14. Questa isoforma è privadell’attività proteasica e agisce da inibitore dell’apoptosi.
Splicing AlternativoOltre il 90% dei geni umani è in grado di esprimere più di un
trascritto (ed è quindi soggetto a splicing alternativo). Le diverse
isoforme di splicing possono avere specificità a livello di tessuto, di
condizione fisiologica, o patologica.
17,635 Human genes
0
5
10
15
20
25
30
35
1 2-5 6-10 11-20 21-30 31-50 >50
Number of Transcripts/ Gene
%
Splicing alternativo e duplicazione genica sono inversamente correlati
GENE EUCARIOTICO
Può un gene codificare per diverse proteine?
Definizione di GENE
• La trascrizione di un gene si può arrestare in corrispondenza di diversi
terminatori
Il gene per tp73L codifica per 10 trascritti alternativi, e utilizza 2 promotori e 3 diversi
terminatori della trascrizione
I geni possono essere sovrapposti
I geni possono essere sovrapposti tra loro, nello stesso orientamento o in
orientamento opposto, o anche essere completamente contenuti in altri
geni.
Geni dentro i geniGeni all’interno di altri geni sono descritti per i genomi diorganismi semplici e nei mitocondri
Nei mammiferi sono descritti geni contenuti nei grandi introni di alcuni geni.A differenza dei genomi piu’ semplici in questi casi spesso viene utilizzato il filamento opposto al gene “canonico”
NF1: introne 26 (40Kb) contiene tre piccoli geni (2 esoni) che vengono trascritti dal filamento opposto
GENE EUCARIOTICO
Esempio:
NF1
5’ 3’esone 26 esone 27Introne 26
Filamento di senso
Filamento antisenso 3’ 5’
OGMP2.2KB
EVI2B10 KB
EVI2A4 KB
GENE EUCARIOTICO
Geni dentro i geni
GENE EUCARIOTICO
GENE EUCARIOTICO
GENE nei virus
GENE nei virusVITA?
Virus a DNA Virus a RNA
GENE nei virus
GENE nei virus
Geni sovrapposti
Sequenza di DNA …GTTTATGGTA…
Val Tyr Gly … proteina A
Met Val … proteina b
Il genoma è fatto solo di geni?
Il genoma è fatto solo di geni?
Anatomia del Genoma Umano
Il genoma è fatto solo di geni?
Talvolta la copia di un gene non è funzionale, ovvero non viene trascritta in RNA, o
viene trascritta in un RNA non funzionale. Le copie inattive di un gene vengono dette
pseudogeni.
Gli pseudogeni possono essere classificati in: 1) non processati; 2) processati.
Nel primo caso il gene inattivo è originato dal gene funzionale e contiene la tipica
struttura in esoni ed introni. La copia genica può essere completa o parziale. Gli
pseudogeni di questo tipo si formano con maggiore probabilità nelle regioni
pericentromeriche.
Gli pseudogeni processati sono privi di introni in quanto derivano dalla
retrotrasposizione di mRNA (retropseudogeni). Il numero di copie di retropseudogeni
è correlato al livello di espressione del gene da cui derivano.
Pseudogeni
51
Pseudogeni
La Trascrittasi Inversa codificata da elementi LINE può retrotrascrivere un mRNA in
cDNA che successivamente può essere integrato a caso in un cromosoma. Se sul sito di
inserimento è casualmente presente un promotore il retrogene può essere
eventualmente espresso e diventare funzionale. Normalmente, questo non accade e lo
pseudogene comincia ad accumulare mutazioni casuali che distruggono la ORF
funzionale (frameshifts, codoni di stop).
Pseudogeni
Nel genoma umano sono stati descritti ~8.000 pseudogeni (~5.000 nel genoma deltopo). Il maggior numero di pseudogeni processati deriva da geni per proteineribosomiali; altri gruppi derivano da geni che codificano per proteine che legano il DNAe l’RNA, per molecole strutturali ed enzimi metabolici. Molti pseudogeni derivano dageni a cui non è stata attribuita una funzione.
Oltre al livello di espressione dei geni, altri fattori gene-specifici sono responsabilidell’origine degli pseudogeni, quali la lunghezza o il loro contenuto in G+C.
Il genoma è fatto solo di geni?
Il DNA NON CODIFICANTE
RIPETUTO IN TANDEM
MICROSATELLITE, 2-4 bp ripetuti in tandem. Espansionidi triplette sono responsabili di alcune patologie (DistrofiaMiotonica)
MINISATELLITE, monomero 6-64bp, altamente polimorfico.Utilizzato per esami di fingerprint del DNA.Es.DNA telomerico (TTAGGG)
SATELLITE, tipico delle sequenze centromeriche (a-satellite,monomero di 171 bp)
54
Microsatelliti e Minisatelliti
I microsatelliti sono costituiti da unità diripetizione lunghe da 1 a 10 pb, ripetutein tandem 10-20 volte, che formanoraggruppamenti molto corti, <150pb, ditipo (A)n, (CA)n, (CGG)n, ecc.Sono anche detti SSR (simple sequencerepeats). Le ripetizioni possono essereperfette o presentare piccole variazioni.
I minisatelliti sono costituiti da unità piùlunghe (da 11 a 100pb) ripetute intandem 20-50 volte che formanoraggruppamenti di lunghezza fino a 20kb
Gli SSR costituiscono circa il 3% delgenoma umano. Sono molto importantinello studio delle malattie genetiche inquanto mostrano un elevato grado dipolimorfismo nella popolazione umana.
Da: Lander et al. Nature 2001, 409: 860
55
Gli SSR possono formarsi attraverso un meccanismo
di scivolamento della replicazione
Gli SSR sono presenti con una frequenza di almeno uno ogni circa 2 kb del genoma.
• Si originano da vari meccanismi tra cui il più importante è lo scivolamento della DNA polimerasi
durante la replicazione.
Microsatelliti: Genetic Fingerprint
Caratteristiche degli SSRs
• Polimorfismo di lunghezza: DNA fingerprinting
• Spesso adoperati come marcatori genetici per la mappatura di
geni associati a patologie.
Microsatelliti e malattie genetiche
I microsatelliti, ed in particolare le ripetizioni di triplette sono associati a
varie malattie genetiche
INTERSPERSO
SINE, brevi elementi nucleari ripetuti (pseudogene processato di RNA7SL)Alu (300bp, 1.000.000 copie nel genoma umano)MIR (130bp, 400.000 copie nel genoma umano)
LINE, lunghi elementi nucleari ripetuti (retrotrasposoni)L1 (6,1Kb a lunghezza completa, 200.000-500.000 copie)
Retrovirus endogeni, HERV
Elementi simili retroviral tronchi, RTLV e LTR
Trasposoni a DNA, Mariner
Il genoma è fatto solo di geni?
Il DNA NON CODIFICANTE
59
Costituite da sequenze di DNA ripetute, disperse in tutto il genoma.Sono definite anche Elementi mobili del DNA, perché derivano da elementitrasponibili (sequenze di DNA che si muovono o sono duplicate da una posizione adun’altra nel genoma)
Porzione non codificante:Ripetizioni intersperse
Classe I o Retrotrasposonisi originano per eventi di retrotrasposizione, attraverso un intermedio ad RNA
• elementi LTR
• LINEs: long interspersed nuclearelements
• SINEs: short interspersed nuclearelements
Classe II o Trasposoni a DNAsi originano attraverso un intermedio a DNA, secondo meccanismo di trasposizione conservativa o replicativa
La caratteristica di tutti i retrotrasposoniè la presenza di brevi ripetizioni direttealle estremità 3’ e 5’ , copia dellasequenza del sito d’integrazione.
Retrotrasposoni
Ripetizioni Intersperse nel Genoma Umano
• LINE (Long interspersed nuclear elements)
– L1, L2, L3 LINE ( ~21% del genoma, ~100,000 copie)
• SINE (Short interspersed nuclear elements)
– Alu (~10,7% del genoma, ~1,200, 000 copie)
– MIR, MIR3 (~3% del genoma, ~500,000 copie)
• Elementi LTR (Long Terminal Repeats)
– ERV, MalR (8% del genoma, ~500,000 copie)
• Transposoni a DNA
– MER1 (Charlie), MER2 (Tigger), others (2,8% del genoma, ~350, 000 copie)
Gli elementi ripetuti interspersi costituiscono cirva il
45% del genoma umano.
Gli elementi LTR o retrotrasposoni virali (6-7kb) presentano analogie con iretrovirus.
Caratteristici degli invertebrati (piante, funghi, insetti) dove sono presenti in grannumero di copie
Elementi Ty in S. cerevisiae mancano del gene env e nonelementi copia in Drosophila possono formare particelle virali
250-600pb
Elementi LTR
63
Gli elementi LINEs o trasposoni non-LTR hanno una lunghezza di circa 6-7kb,
contengono un promotore per l’RNA polimerasi II (derivano da trascritti della
l’RNA pol II), una o due ORF e un segnale di poliadenilazione all’estremità 3’.
•ORF1 codifica per una proteina a funzione ignota ( lega l’RNA?),
•ORF2 codifica per un’enzima che possiede sia un’attività di trascrittasi inversa
(RT), simile a quella dei retrovirus e dei retrotrasposoni virali, che un’attività di
DNA endonucleasi (EN).
Vi sono tre famiglie principali di elementi LINES: L1 (incluse 60-100 copie tuttora
attive e moltissime copie inattive troncate all’estremità 5’); L2 e L3 (inattive). Le
copie attive inserendosi in punti critici del genoma possono inattivare dei geni con
conseguente insorgenza di patologie.
Le LINEs si inseriscono preferibilmente nelle regioni eucromatiche ricche in A+T.
LINEs:long interspersed nuclear elements
RNA binding anche endonucleasipromotore
Pol IIripetizioni
dirette
1. Generazione di un trascritto LINE full-length a partire dal promotore.2. ORF1 e ORF2 vengono tradotte e legano il LINE mRNA.
Meccanismo di trasposizione degli elementi LINEs
5’ 3’orf1orf2
3. Il complesso LINE mRNA/ORF1/ORF2 si sposta nel nucleo, dove l’attivitàendonucleasica di ORF2 taglia il dsDNA. L’estremità libera al 3’ (sul DNA)funge da innesco per la retrotrascrizione a partire dal 3’UTR.
5’ 3’orf1orf2
5’ 3’3’ 5’
Il sito di taglio di ORF1 è TTTT A, e questo spiega l’integrazionepreferenziale nelle regioni genomiche ricche in AT. Dato che la LINE RT hauna bassa processività molte delle copie integrate sono tronche (solo1/100 è completa).
SINEs: short interspersed nuclear elements
Gli elementi SINEs sono elementi non-autonomi, hanno una lunghezza
compresa tra 0.1 e 0.4 kb.
Hanno un promotore (interno) per L’RNA polimerasi III (derivano da trascritti
della l’RNA pol III), e una regione ricca in A all’estremità 3’ ma non contengono
un segnale di poliadenilazione.
Gli elementi SINEs non contengono alcuna ORF codificante per una trascrittasi
inversa, ma sono in grado di trasporre utilizzando la trascrittasi inversa
sintetizzata da altri retroelementi (trasposizione LINEs-dipendente).
BA AAAA SINE
Gli elementi SINEs sono distribuiti ad alta densità nelle regioni ricche in CG del
genoma (isocore H), perché hanno un più elevato contenuto C+G (~57%) rispetto
agli elementi LINEs ( 40%).
Nel genoma dei primati sono presenti tre differenti famiglie di elementi SINEs:
l’elemento Alu, ancora attivo, e gli elementi inattivi MIR e Ther2/MIR3.
L’elemento Alu, il più comune nei primati, è lungo 0,3kb; è presente in circa
1.200.000 di copie nel genoma umano e rappresenta quindi oltre il 10% di tutto il
genoma. Presenta una regione ricca in A/T all’estremità 3’, coinvolta nel
meccanismo di retrotrasposizione.
Le sequenze Alu sono localizzate a monte o a valle dei geni, negli introni, nelle
regioni 5’ e 3’ non tradotte dell’mRNA. Non è noto il loro ruolo funzionale,
nonostante siano molto diffuse nel genoma di tutti i primati.
Le sequenze Alu presentano analogie con l’RNA 7SL, componente di una particella
ribonucleoproteica coinvolta nel meccanismo di secrezione dei polipeptidi di nuova
sintesi attraverso le membrane del reticolo endoplasmatico.
Si ritiene che il primo elemento Alu si è originato per un evento di retrotrascrizione
di una molecola di RNA 7SL e successiva integrazione della copia nel genoma.
SINEs: short interspersed nuclear elements
Meccanismo di retroposizione dell’elemento Alu
Si pensa che il taglio al sito di
inserimento sia opera della L1
endonucleasi
Target-primed reverse
transcription (TPRT) Il promotore pol III è necessario ma non
sufficiente per la trascrizione che richiede
anche sequenze fiancheggianti appropriate.
La maggior parte degli elementi Alu
integrati non è attiva in quanto non viene
integrata in un contesto favorevole e muta
rapidamente sia nelle sequenze CpG che
nella regione ricca in A.
Evoluzione e classificazione degli elementi Alu
da: Batzer and Deininger, Nature Rev. Gen. 3:370380, 2002)
Gli elementi Alu sono classificati in sottofamiglie che si differenziano per l’epoca della loro integrazione nel genoma, dalle
più antiche (Sx, J) alle più recenti (Yc1, etc.).
69
Danni genomici indotti da AluNumerose patologie sono provocate dall'integrazione casuale di Alu
(Neurofibromatosi, haemophilia, sindrome di Apert, ecc.) o da
ricombinazione disuguale (diabete di tipo II, sindrome di Lesch–Nyhan,
malattia di Tay–Sachs, ipercolesterolemia familiare, α-thalassaemia,
ecc.).
70
Trasposoni a DNAI Trasposoni a DNA sono elementi mobili distinti in due categorie:•Trasposoni a DNA che si spostano replicandosi: una copia rimane nel sitooriginale, mentre la nuova copia si inserisce altrove nel genoma
•Trasposoni a DNA che si spostano in maniera conservativa, da un sito all’altrodel genoma senza aumentare il numero di copie
Sono caratterizzati da una sequenza codificante la trasposasi contenente introni,fiancheggiata da ripetizioni terminali invertite, simili a quelle dei trasposoni batterici.
Sono meno comuni negli eucarioti (3% nel genoma umano, raggruppati in 7 classiprincipali) rispetto ai retrotrasposoni.I più noti sono gli Elementi Ac e Ds del granturco, i primi elementi mobili identificatinegli anni 50 da B. McClintock e gli elementi P di Drosophila. Traspongono mediante ilmeccanismo di trasposizione conservativa
Funzione degli elementi ripetuti
• Punti caldi per ricombinazione (duplicazioni, inversioni, traslocazioni;creazione di nuovi geni per shuffling esonici)
• Alterazione della espressione genica in quanto portatori di segnalitrascrizionali (es. promotori e enhancer di LTR; promotori di Alu; siti diterminazione deboli della trascrizione di elementi L1; segnali dipoliadenilazione)
• Presenza in geni per proteine (Le Alu contengono siti criptici di splicing;fonte di domini proteici; contributo a variabilità delle proteine)
• Reclutamento come elementi regolatori (es. BC200 di primati deriva da Alumonomerica)
• Fonte di pseudogeni processati (ritorno in vita come lunghi esoni? Comenuovi geni? )
• Fonte di plasticità del genoma e quindi ruolo attivo nel rimodellamento genomico (riarrangiamenti cromosomici, reshuffling di geni, etc)
Qual è l’origine di tutto questo?Come si sono evoluti i genomi?
Origine ed evoluzione dei genomi
Origine ed evoluzione dei genomiMondo a RNA
Nascita di molecole autoreplicanti
Origine ed evoluzione dei genomiMondo a RNA
Protogenomi a RNA
Compartimentalizzazione
all’interno di membrane
lipidiche
Prime strutture di tipo cellulare
Origine ed evoluzione dei genomiCome si è evoluto il genoma a DNA?
Nascita di enzimi proteici
Origine ed evoluzione dei genomiCome si è evoluto il genoma a DNA?
Trasferimento della funzione codificante dall’RNA
al DNA (chimicamente piu’ stabile)
Origine ed evoluzione dei genomi
Primi Genomi a DNA (3,8 miliardi di anni fa)
Ogni molecola di DNA rappresenta un singolo gene
che codifica per una singola proteina
singolo gene
singola proteina
Origine ed evoluzione dei genomiAcquisizione di nuovi geni
1. Duplicazione di alcuni o tutti i geni del genoma
2. Acquisizione di geni da altre specie
Origine ed evoluzione dei genomiAcquisizione di nuovi geni
Duplicazione di un intero genoma
Genoma duplicato
Origine ed evoluzione dei genomiAcquisizione di nuovi geni
•Crossing-over disuguale
•Scambio disuguale tra cromatidi fratelli
Duplicazione di geni
Origine ed evoluzione dei genomiAcquisizione di nuovi geni
Duplicazione di geni
Gene A1
Gene A2Gene A1
Duplicazione
Nessuna
pressione
selettiva
Pressione
selettiva
Gene A1 Gene B Divergenza
Nuova funzione
o
Funzione simile
Origine ed evoluzione dei genomiAcquisizione di nuovi geni
Famiglie geniche
Duplicazione di geni
EVOLUZIONE DEI GENI
Origine ed evoluzione dei genomiAcquisizione di nuovi geni
Riarrangiamento genico
•Duplicazione
dei domini
•Rimescolamento
di domini
Origine ed evoluzione dei genomiAcquisizione di nuovi geni
Gene
ESONI = MOTIVI PROTEICI
ESONI
N C b b b
Proteinab b
MOTIVI
Origine ed evoluzione dei genomiAcquisizione di nuovi geni
Acquisizione di geni da altre specie
I retrovirus sono capaci di spostare geni animali
tra individui della stesse specie e tra specie diverse
Il trasferimento di geni tra batteri è un fenomeno comune in natura
che avviene ancora oggi
EVOLUZIONE DEI GENI
Maria C. Rivera & James A. Lake
The ring of life provides evidence for a genome fusion
origin of eukaryotes
NATURE |VOL 431 | 9 SEPTEMBER 2004
Origine ed evoluzione dei genomiINTRONI? UN MISTERO
1. IPOTESI INTRONI ANTICHI: gli introni sono molto antichi
e si stanno gradualmente perdendo nei genomi degli eucarioti
2. IPOTESI INTRONI RECENTI: gli introni si sono evoluti di recente
e si stanno gradualmente accumulando nei genomi degli eucarioti
Origine ed evoluzione dei genomiINTRONI? UN MISTERO
Teoria esonica dei geni
Origine ed evoluzione dei genomiINTRONI? UN MISTERO
Le evidenze attuali non inficiano alcuna ipotesi
Origine ed evoluzione dei genomi
IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Origine ed evoluzione dei genomi
IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Uomo – Scimpanzè= 98,5% di omologia?
Usando una statistica corretta,
considerando il numero di misure
fatte, la similitudine si riduce al
96%.
Recenti studi indipendenti hanno
ricalcolato queste percentuali,
ottenendo un range di omologia
compreso tra il 66 e il 76% (in base
al cromosoma)
Recenti studi indipendenti hanno ricalcolato queste percentuali,
ottenendo un range di omologia compreso tra il 66 e il 76% (in base
al cromosoma)
Origine ed evoluzione dei genomiIL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Origine ed evoluzione dei genomi
IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Che cosa ci rende diversi dalle scimmie?
Origine ed evoluzione dei genomi
IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Che cosa ci rende diversi dalle scimmie?
Sottili cambiamenti nei profili di espressione dei geni coinvolti in processi di sviluppo e nella specificazione delle interconnessioni
all’interno del sistema nervoso
why do humans have a high risk of cancer, even though chimps rarely develop the disease? Scientists have looked at brain samples of each species. They found that differences in DNA methylation, may contribute to phenotypic changes. The results also hint that DNA methylation plays an important role for some disease-related phenotypes in humans, including cancer and autism.
Origine ed evoluzione dei genomi
IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Quello che ci rende umani probabilmente non è il genoma umano di per sé,
ma il modo in cui il genoma funziona