el genoma humanobioinformatica.uab.cat/base/documents/mastergp/el genoma...• seqüenciaciópel...
TRANSCRIPT
5/3/2012
1
EL GENOMA HUMÀ
Projecte Genoma Humà
EL GENOMA HUMÀ
Antecedents
5/3/2012
2
Seqüenciació del genoma humà
Projecte Genoma Humà Celera Genomics
Inici 1990
Esborrany Octubre 2000
I i i i US D f E d N i l
Inici Setembre 1999
Esborrany Octubre 2000
I i i i C l G i E i dIniciativa US Department of Energy and NationalInstitute of Health. Finançament públic. Consorci de 20 laboratoris de 6 països.
Lideratge Francis Collins i Eric Lander
Estratègia Hierachical shotgun sequencing
Material DNA de donants anònims desconeguts
Dades Accés lliure i sense restriccions a través
Iniciativa Celera Genomics. Empresa privada.
Lideratge Craig Venter
Estratègia Whole‐genome shotgun sequencing
Material Selecció de 5 donants entre 21 voluntaris. 2 homes i 3 dones. 2 caucàssics, 1 afro‐americà, 1 asiàtic i 1 hispà.
de les bases de dades públiques a mesura que s’anava avançant en el projecte
Publicació Nature 409: 860‐921 ESBORRANY(15 febrer 2001) Nature 431: 931‐945 FINALITZACIÓ (21 Octubre 2004)
Dades Disponibles amb restriccions per alsinvestigadors a través de la web de Celera a partir de la data de publicacióper acord entre la revista Science i Celera.
Publicació Science 291: 1304‐1351 (16 febrer 2001)
26 juny 2000
5/3/2012
3
Seqüenciació del genoma humà
Febrer 2001
Desenvolupament del projecte genoma humà
5/3/2012
4
Estratègies de seqüenciació
Projecte Genoma Humà Celera Genomics
Waterston et al. (2002) PNAS 99: 3712‐3716.
read
Ensamblatge de seqüències
Fragment de seqüència seguida obtingut en una reacció de seqüenciació.
contigConjunt de reads que s’han pogut ordenar per formar un segment continu de seqüència en base al solapament dels seus extrems.
scaffoldConjunt de contigs ordenats i orientats en base a informació obtinguda de reads aparellats.Conté gaps o segments de seqüència sense determinar.
5/3/2012
5
Whole‐genome shotgun sequencing
Figure 1. Adams, J. (2008) Complex genomes: Shotgun sequencing. Nature Education 1(1)
Ensamblatge de seqüències
Q = ‐10 log10 P
N ∙ LG
FC =P = Probabilitat d’error de cada baseQ > 20 es considera base fiable (P = 0,01)
Qualitat d’una base – phred score (Q) Redundancy = fold coverage
N = nombre de readsL = llargada mitjana dels readsG = mida del genoma
Nombre mitjà de reads que inclouen un determinat nucleòtid del genoma
10x seria un genoma complet alta qualitatFigure 2.4. A Primer of Genome Science. Gibson and Muse. 3rd edition (2009)
5/3/2012
6
Finalització del genoma humà (Octubre 2004)
ESBORRANY (2001)
FINALITZACIÓ (2004)
Total seqüència 2.693 Mb 2.850 MbTotal seqüència 2.693 Mb
Percentatgeeucromatina 90%
Taxa d’error Part finalitzada <1/10.000 basesPart no finalitzada <1/1.000 bases
Gaps 147.821
99%
≈1/100.000 bases
341
b
33 heterocromatina (198 Mb)208 eucromatina (28 Mb)
Mida total genoma 3.289 Mb
Nombre de gens 30.000‐40.000
Pseudogens
3.080 Mb
20.000‐25.000
≈20.000
International Human Genome Sequencing Consortium(2000) Nature 409: 860‐921
International Human Genome Sequencing Consortium(2000) Nature 431: 931‐945
Versió actual del genoma humà
chrGenBankAccession
RefSeqAccession
Scaffoldstotal
Localizedscaffolds
Unlocalizedscaffolds
Gaps withinscaffolds
Gaps betweenscaffolds
Total lengthLocalizedscaffolds
Unlocalizedscaffolds
N50
1 CM000663.1 NC_000001.10 21 19 2 19 22 249,904,550 249,250,621 653,929 57,411,349
2 CM000664.1 NC_000002.11 13 13 0 3 15 243,199,373 243,199,373 0 68,452,323
3 CM000665.1 NC_000003.11 4 4 0 0 7 198,022,430 198,022,430 0 100,537,107
4 CM000666.1 NC_000004.11 12 10 2 1 12 191,535,534 191,154,276 381,258 115,591,997
5 CM000667 1 NC 000005 9 5 5 0 1 6 180 915 260 180 915 260 0 46 395 6415 CM000667.1 NC_000005.9 5 5 0 1 6 180,915,260 180,915,260 0 46,395,641
6 CM000668.1 NC_000006.11 3 3 0 6 8 171,115,067 171,115,067 0 58,720,166
7 CM000669.1 NC_000007.13 8 7 1 9 8 159,321,559 159,138,663 182,896 50,360,631
8 CM000670.1 NC_000008.10 9 7 2 1 9 146,440,111 146,364,022 76,089 38,440,852
9 CM000671.1 NC_000009.11 28 24 4 15 29 141,696,573 141,213,431 483,142 62,237,592
10 CM000672.1 NC_000010.10 8 8 0 8 12 135,534,747 135,534,747 0 79,420,533
11 CM000673.1 NC_000011.9 5 4 1 4 11 135,046,619 135,006,516 40,103 41,593,379
12 CM000674.1 NC_000012.11 6 6 0 1 8 133,851,895 133,851,895 0 71,516,776
13 CM000675.1 NC_000013.10 5 5 0 0 10 115,169,878 115,169,878 0 67,740,324
14 CM000676.1 NC_000014.8 1 1 0 0 5 107,349,540 107,349,540 0 88,289,540
15 CM000677.1 NC_000015.9 7 7 0 2 10 102,531,392 102,531,392 0 53,620,202
16 CM000678.1 NC_000016.9 4 4 0 1 10 90,354,753 90,354,753 0 42,003,582
17 CM000679.1 NC 000017.10 10 6 4 2 5 81,529,607 81,195,210 334,397 44,983,201_ , , , , , , ,
18 CM000680.1 NC_000018.9 4 3 1 2 7 78,081,510 78,077,248 4,262 25,808,112
19 CM000681.1 NC_000019.9 6 4 2 1 8 59,380,841 59,128,983 251,858 31,387,201
20 CM000682.1 NC_000020.10 4 4 0 2 9 63,025,520 63,025,520 0 31,409,461
21 CM000683.1 NC_000021.8 9 8 1 1 14 48,157,577 48,129,895 27,682 28,617,430
22 CM000684.1 NC_000022.10 4 4 0 0 9 51,304,566 51,304,566 0 29,755,346
X CM000685.1 NC_000023.10 17 17 0 5 21 155,270,560 155,270,560 0 27,775,034
Y CM000686.1 NC_000024.9 17 17 0 2 16 59,373,566 59,373,566 0 6,265,435
Un 39 NA 39 0 0 3,675,142 NA 3,675,142 164,239
Genome 249 190 59 86 271 3,101,788,170 3,095,677,412 6,110,758 46,395,641
357 gapsStatistics for the current genome assembly GRCh37.p5 (September 2011)Data from the Genome Reference Consortium webpage (http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/index.shtml)
5/3/2012
7
EL GENOMA HUMÀ
El paisatge genòmic humà
EL GENOMA HUMÀ
A summary of human genome parameters
Parameter Value
Genome size ~ 3 Gb
N b f h 23 iNumber of chromosomes 23 pairs
Number of genes ~ 20.000
Number of transcription factors ~ 2.000
CG content ~40%
CG/gene‐rich isochores ~120
Mutation rate ~1.1 x 10-8 per base per gen.g
Number of deleterious mutations ~1 per diploid per gen.
Number of crossovers ~80 (F), ~50 (M)
Average rate of recombination ~1.3 cM/Mb
5/3/2012
8
Contingut en GC
Mitjana 41%
Figure 12. International Human Genome Sequencing Consortium (2001) Nature 409: 860‐921
Histograma del contingut en GC de finestres de 20 kb a la seqüència del genoma humà
Illes CpG
• Regions amb un alt contingut en GC i una freqüència alta del dinucleòtidCG (poc freqüent al genoma)
• Mida superior a 200 bp contingut en• Mida superior a 200 bp, contingut en GC ≥50% i excés de dinucleòtid CG
• Associades a l’extrem 5’ dels gens
• Citosines no metilades
Human genome on UCSC Genome Browser (http://genome.ucsc.edu/)
5/3/2012
9
Illes CpG
La majoria d’illes CpG sóncurtes i tenen un continguten GC del 60‐70%
Correlació amb nombre de gens als diferents cromosomes
Molts cromosomes tenen5‐15 illes/Mb
Table 10 and Figure 14. International Human Genome Sequencing Consortium (2001) Nature 409: 860‐921
La densitat d’illes CpG estàcorrelacionada amb el nombre de gens
Linkage map of the human genome ‐Rutgers Map v.2 (Matise et al. 2007)
5/3/2012
10
Recombination rate versus chromosomearm length (Lander et el. 2001)
Comparació de distàncies genètica i física
Distància en cM al llarg del mapa genètic del cromosoma 12 representadarespecte la posició en Mb de la seqüència del genoma
Figure 15. International Human Genome Sequencing Consortium (2001) Nature 409: 860‐921
5/3/2012
11
Estimes del nombre de gens al genoma humà
Method Estimate Reference
Reassociation kinetics 40.000 Lewin 1980
Gene size/genome size ratio 100.000 Gilbert (Lewin 1980)
CpG island number 70.000‐80.000 Antequera and Bird 1993
ESTs 35.000‐120.000 Ewing and Green 2000Liang et al. 2000
Comparison with Tetraodon nigroviridis 30.000 Roest Crollius et al. 2000
Chromosomes 21 and 22 extrapolation 30.500‐35.500 Dunham 2000
Genome sequence analysis 32.000 IHGSC 2001
Genome sequence analysis 38.000 Venter et al. 2001
Genome sequence analysis 20.000‐25.000 IHGSC 2004
Nombre i característiques dels gens humans
Known protein‐coding genes 20,469
Novel protein‐coding genes 431
Total protein‐coding genes 20,900
P d 14 266
Current Genome Assembly: GRCh37.p5 (Feb 2009)
Pseudogenes 14,266
RNA genes 12,499
Gene exons 640,185
Gene transcripts 178,191
Ensembl release 64 data ‐ Sep 2011 (http://www.ensembl.org/Homo_sapiens/Info/Index)
(Nature 409: 860‐921, 2001)
5/3/2012
12
Característiques dels gens humans
Comparació de l’estructura dels gens humans ambla dels de D. melanogaster i C. elegans
Mida dels exons Mida dels intronsMida dels exons Mida dels introns
50‐200 bp
Table 21 and Figure 35. International Human Genome Sequencing Consortium (2001) Nature 409: 860‐921
Gen més gran DMD (2.4 Mb)Regió codificant més gran TTN (100269 bp en 312 exons)Intró més gran KCNIP4 (1 Mb)
Característiques dels gens humans
Densitat gènica més alta a les i i GCregions riques en GC
Regions riques en GC Riques en gensGens compactes
Regions riques en AT Pobres en gensGens amb introns grans
5/3/2012
13
Duplicacions segmentàries
Gaps
SD5.3% genoma≥ 1 kb≥ 90% identitat
Figure 4. International Human Genome Sequencing Consortium (2004) Nature 409: 931‐945.
Genomes personals
• Genoma de Craig Venter• Genoma diploide• Seqüenciació pel mètode Sanger• Estratègia whole‐genome shotgun• Redundància = 7.5xC 100 ili d dòl
PLoS Biology (2007) 5: e254
• Cost = 100 milions de dòlars• Temps = 10 anys• Ensamblatge de novo• 4,528 scaffolds (2,810 Mb de seqüència continua)
• Genoma de James D. Watson• Genoma diploide• Seqüenciació per 454/Roche• Seqüenciació per 454/Roche (piroseqüenciació)
• Primer genoma amb les noves tecnologies de seqüenciació
• Redundància = 7.4x• Cost = 1 milió de dòlars• Temps = 2 mesos• No s’ha fet ensamblatge de novo, tan solsalineament amb genoma de referència
Nature (2008) 452: 2112‐2144
5/3/2012
14
Genomes personals
Seqüències noves no presents al genoma de referència
Venter: 9 Mb de seqüència que omplen gaps al genoma de referènciaVenter: 9 Mb de seqüència que omplen gaps al genoma de referènciao corresponen a insercions/delecions + 14 Mb seqüència nova
Watson: 29 Mb seqüència nova única + 19 Mb de seqüènciesheterocromàtiques.
Table 1. Wadman (2008) Nature 452: 788
5/3/2012
15
Exome sequencing
Seqüenciació dels exons del genoma humà d’un individu concret que pateixuna malaltia amb base genètica amb la finalitat de trobar‐ne el gen causant
Genoteca de seqüenciació
Selecció de les molècules que contenen seqüències exòniques
Seqüenciació dirigida d’aquestes molècules
Determinació de totsels canvis nucleotídics
als exons
Eliminació de variantscomuns
Identificació de gens candidats
Exome sequencing
Gilissen et al. (2011) Genome Biology 12: 228
5/3/2012
16
Aplicacions clíniques de la seqüenciació
Malaltia inflamatòria intestinal greu i intractable de causa desconeguda.
Seqüenciació de l’exoma va permetre descobrir una mutació en hemizigosi al gen XIAP (X‐linked inhibitorof apoptosis) del cromosoma X que substitueix un
Nicholas Volker
of apoptosis) del cromosoma X que substitueix un aminoàcid cisteína funcionalment important per una tirosina.
Un transplantament del moll de l’os ha salvat la vida al pacient.
Child
Worthey et al. (2011) Genet Med. 13:255‐62.
Mother