el genoma humanobioinformatica.uab.cat/base/documents/mastergp/el genoma...• seqüenciaciópel...

5/3/2012

1

EL GENOMA HUMÀ

Projecte Genoma Humà

EL GENOMA HUMÀ

Antecedents

5/3/2012

2

Seqüenciació del genoma humà

Projecte Genoma Humà Celera Genomics

Inici 1990

Esborrany Octubre 2000

I i i i US D f E d N i l

Inici Setembre 1999

Esborrany Octubre 2000

I i i i C l G i E i dIniciativa US Department of Energy and NationalInstitute of Health. Finançament públic. Consorci de 20 laboratoris de 6 països.

Lideratge Francis Collins i Eric Lander

Estratègia Hierachical shotgun sequencing

Material DNA de donants anònims desconeguts

Dades Accés lliure i sense restriccions a través

Iniciativa Celera Genomics. Empresa privada.

Lideratge Craig Venter

Estratègia Whole‐genome shotgun sequencing

Material Selecció de 5 donants entre 21 voluntaris. 2 homes i 3 dones. 2 caucàssics, 1 afro‐americà, 1 asiàtic i 1 hispà.

de les bases de dades públiques a mesura que s’anava avançant en el projecte

Publicació Nature 409: 860‐921 ESBORRANY(15 febrer 2001) Nature 431: 931‐945 FINALITZACIÓ (21 Octubre 2004)

Dades Disponibles amb restriccions per alsinvestigadors a través de la web de Celera a partir de la data de publicacióper acord entre la revista Science i Celera.

Publicació Science 291: 1304‐1351 (16 febrer 2001)

26 juny 2000

5/3/2012

3

Seqüenciació del genoma humà

Febrer 2001

Desenvolupament del projecte genoma humà

5/3/2012

4

Estratègies de seqüenciació

Projecte Genoma Humà Celera Genomics

Waterston et al. (2002) PNAS 99: 3712‐3716.

read

Ensamblatge de seqüències

Fragment de seqüència seguida obtingut en una reacció de seqüenciació.

contigConjunt de reads que s’han pogut ordenar per formar un segment continu de seqüència en base al solapament dels seus extrems.

scaffoldConjunt de contigs ordenats i orientats en base a informació obtinguda de reads aparellats.Conté gaps o segments de seqüència sense determinar.

5/3/2012

5

Whole‐genome shotgun sequencing

Figure 1. Adams, J. (2008) Complex genomes: Shotgun sequencing. Nature Education 1(1)

Ensamblatge de seqüències

Q = ‐10 log10 P

N ∙ LG

FC =P = Probabilitat d’error de cada baseQ > 20 es considera base fiable (P = 0,01)

Qualitat d’una base – phred score (Q) Redundancy = fold coverage

N = nombre de readsL = llargada mitjana dels readsG = mida del genoma

Nombre mitjà de reads que inclouen un determinat nucleòtid del genoma

10x seria un genoma complet alta qualitatFigure 2.4. A Primer of Genome Science. Gibson and Muse. 3rd edition (2009)

5/3/2012

6

Finalització del genoma humà (Octubre 2004)

ESBORRANY (2001)

FINALITZACIÓ (2004)

Total seqüència 2.693 Mb 2.850 MbTotal seqüència 2.693 Mb

Percentatgeeucromatina 90%

Taxa d’error Part finalitzada <1/10.000 basesPart no finalitzada <1/1.000 bases

Gaps 147.821

99%

≈1/100.000 bases

341

b

33 heterocromatina (198 Mb)208 eucromatina (28 Mb)

Mida total genoma 3.289 Mb

Nombre de gens 30.000‐40.000

Pseudogens

3.080 Mb

20.000‐25.000

≈20.000

International Human Genome Sequencing Consortium(2000) Nature 409: 860‐921

International Human Genome Sequencing Consortium(2000) Nature 431: 931‐945

Versió actual del genoma humà

chrGenBankAccession

RefSeqAccession

Scaffoldstotal

Localizedscaffolds

Unlocalizedscaffolds

Gaps withinscaffolds

Gaps betweenscaffolds

Total lengthLocalizedscaffolds

Unlocalizedscaffolds

N50

1 CM000663.1 NC_000001.10 21 19 2 19 22 249,904,550 249,250,621 653,929 57,411,349

2 CM000664.1 NC_000002.11 13 13 0 3 15 243,199,373 243,199,373 0 68,452,323

3 CM000665.1 NC_000003.11 4 4 0 0 7 198,022,430 198,022,430 0 100,537,107

4 CM000666.1 NC_000004.11 12 10 2 1 12 191,535,534 191,154,276 381,258 115,591,997

5 CM000667 1 NC 000005 9 5 5 0 1 6 180 915 260 180 915 260 0 46 395 6415 CM000667.1 NC_000005.9 5 5 0 1 6 180,915,260 180,915,260 0 46,395,641

6 CM000668.1 NC_000006.11 3 3 0 6 8 171,115,067 171,115,067 0 58,720,166

7 CM000669.1 NC_000007.13 8 7 1 9 8 159,321,559 159,138,663 182,896 50,360,631

8 CM000670.1 NC_000008.10 9 7 2 1 9 146,440,111 146,364,022 76,089 38,440,852

9 CM000671.1 NC_000009.11 28 24 4 15 29 141,696,573 141,213,431 483,142 62,237,592

10 CM000672.1 NC_000010.10 8 8 0 8 12 135,534,747 135,534,747 0 79,420,533

11 CM000673.1 NC_000011.9 5 4 1 4 11 135,046,619 135,006,516 40,103 41,593,379

12 CM000674.1 NC_000012.11 6 6 0 1 8 133,851,895 133,851,895 0 71,516,776

13 CM000675.1 NC_000013.10 5 5 0 0 10 115,169,878 115,169,878 0 67,740,324

14 CM000676.1 NC_000014.8 1 1 0 0 5 107,349,540 107,349,540 0 88,289,540

15 CM000677.1 NC_000015.9 7 7 0 2 10 102,531,392 102,531,392 0 53,620,202

16 CM000678.1 NC_000016.9 4 4 0 1 10 90,354,753 90,354,753 0 42,003,582

17 CM000679.1 NC 000017.10 10 6 4 2 5 81,529,607 81,195,210 334,397 44,983,201_ , , , , , , ,

18 CM000680.1 NC_000018.9 4 3 1 2 7 78,081,510 78,077,248 4,262 25,808,112

19 CM000681.1 NC_000019.9 6 4 2 1 8 59,380,841 59,128,983 251,858 31,387,201

20 CM000682.1 NC_000020.10 4 4 0 2 9 63,025,520 63,025,520 0 31,409,461

21 CM000683.1 NC_000021.8 9 8 1 1 14 48,157,577 48,129,895 27,682 28,617,430

22 CM000684.1 NC_000022.10 4 4 0 0 9 51,304,566 51,304,566 0 29,755,346

X CM000685.1 NC_000023.10 17 17 0 5 21 155,270,560 155,270,560 0 27,775,034

Y CM000686.1 NC_000024.9 17 17 0 2 16 59,373,566 59,373,566 0 6,265,435

Un 39 NA 39 0 0 3,675,142 NA 3,675,142 164,239

Genome 249 190 59 86 271 3,101,788,170 3,095,677,412 6,110,758 46,395,641

357 gapsStatistics for the current genome assembly GRCh37.p5 (September 2011)Data from the Genome Reference Consortium webpage (http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/index.shtml)

5/3/2012

7

EL GENOMA HUMÀ

El paisatge genòmic humà

EL GENOMA HUMÀ

A summary of human genome parameters

Parameter Value

Genome size ~ 3 Gb

N b f h 23 iNumber of chromosomes 23 pairs

Number of genes ~ 20.000

Number of transcription factors ~ 2.000

CG content ~40%

CG/gene‐rich isochores ~120

Mutation rate ~1.1 x 10-8 per base per gen.g

Number of deleterious mutations ~1 per diploid per gen.

Number of crossovers ~80 (F), ~50 (M)

Average rate of recombination ~1.3 cM/Mb

5/3/2012

8

Contingut en GC

Mitjana 41%

Figure 12. International Human Genome Sequencing Consortium (2001) Nature 409: 860‐921

Histograma del contingut en GC de finestres de 20 kb a la seqüència del genoma humà

Illes CpG

• Regions amb un alt contingut en GC i una freqüència alta del dinucleòtidCG (poc freqüent al genoma)

• Mida superior a 200 bp contingut en• Mida superior a 200 bp, contingut en GC ≥50% i excés de dinucleòtid CG

• Associades a l’extrem 5’ dels gens

• Citosines no metilades

Human genome on UCSC Genome Browser (http://genome.ucsc.edu/)

5/3/2012

9

Illes CpG

La majoria d’illes CpG sóncurtes i tenen un continguten GC del 60‐70%

Correlació amb nombre de gens als diferents cromosomes

Molts cromosomes tenen5‐15 illes/Mb

Table 10 and Figure 14. International Human Genome Sequencing Consortium (2001) Nature 409: 860‐921

La densitat d’illes CpG estàcorrelacionada amb el nombre de gens

Linkage map of the human genome ‐Rutgers Map v.2 (Matise et al. 2007)

5/3/2012

10

Recombination rate versus chromosomearm length (Lander et el. 2001)

Comparació de distàncies genètica i física

Distància en cM al llarg del mapa genètic del cromosoma 12 representadarespecte la posició en Mb de la seqüència del genoma

Figure 15. International Human Genome Sequencing Consortium (2001) Nature 409: 860‐921

5/3/2012

11

Estimes del nombre de gens al genoma humà

Method Estimate Reference

Reassociation kinetics 40.000 Lewin 1980

Gene size/genome size ratio 100.000 Gilbert (Lewin 1980)

CpG island number 70.000‐80.000 Antequera and Bird 1993

ESTs 35.000‐120.000 Ewing and Green 2000Liang et al. 2000

Comparison with Tetraodon nigroviridis 30.000 Roest Crollius et al. 2000

Chromosomes 21 and 22 extrapolation 30.500‐35.500 Dunham 2000

Genome sequence analysis 32.000 IHGSC 2001

Genome sequence analysis 38.000 Venter et al. 2001

Genome sequence analysis 20.000‐25.000 IHGSC 2004

Nombre i característiques dels gens humans

Known protein‐coding genes 20,469

Novel protein‐coding genes 431

Total protein‐coding genes 20,900

P d 14 266

Current Genome Assembly: GRCh37.p5 (Feb 2009)

Pseudogenes 14,266

RNA genes 12,499

Gene exons 640,185

Gene transcripts 178,191

Ensembl release 64 data ‐ Sep 2011 (http://www.ensembl.org/Homo_sapiens/Info/Index)

(Nature 409: 860‐921, 2001)

5/3/2012

12

Característiques dels gens humans

Comparació de l’estructura dels gens humans ambla dels de D. melanogaster i C. elegans

Mida dels exons Mida dels intronsMida dels exons Mida dels introns

50‐200 bp

Table 21 and Figure 35. International Human Genome Sequencing Consortium (2001) Nature 409: 860‐921

Gen més gran DMD (2.4 Mb)Regió codificant més gran TTN (100269 bp en 312 exons)Intró més gran KCNIP4 (1 Mb)

Característiques dels gens humans

Densitat gènica més alta a les i i GCregions riques en GC

Regions riques en GC Riques en gensGens compactes

Regions riques en AT Pobres en gensGens amb introns grans

5/3/2012

13

Duplicacions segmentàries

Gaps

SD5.3% genoma≥ 1 kb≥ 90% identitat

Figure 4. International Human Genome Sequencing Consortium (2004) Nature 409: 931‐945.

Genomes personals

• Genoma de Craig Venter• Genoma diploide• Seqüenciació pel mètode Sanger• Estratègia whole‐genome shotgun• Redundància = 7.5xC 100 ili d dòl

PLoS Biology (2007) 5: e254

• Cost = 100 milions de dòlars• Temps = 10 anys• Ensamblatge de novo• 4,528 scaffolds (2,810 Mb de seqüència continua)

• Genoma de James D. Watson• Genoma diploide• Seqüenciació per 454/Roche• Seqüenciació per 454/Roche (piroseqüenciació)

• Primer genoma amb les noves tecnologies de seqüenciació

• Redundància = 7.4x• Cost = 1 milió de dòlars• Temps = 2 mesos• No s’ha fet ensamblatge de novo, tan solsalineament amb genoma de referència

Nature (2008) 452: 2112‐2144

5/3/2012

14

Genomes personals

Seqüències noves no presents al genoma de referència

Venter: 9 Mb de seqüència que omplen gaps al genoma de referènciaVenter: 9 Mb de seqüència que omplen gaps al genoma de referènciao corresponen a insercions/delecions + 14 Mb seqüència nova

Watson: 29 Mb seqüència nova única + 19 Mb de seqüènciesheterocromàtiques.

Table 1. Wadman (2008) Nature 452: 788

5/3/2012

15

Exome sequencing

Seqüenciació dels exons del genoma humà d’un individu concret que pateixuna malaltia amb base genètica amb la finalitat de trobar‐ne el gen causant

Genoteca de seqüenciació

Selecció de les molècules que contenen seqüències exòniques

Seqüenciació dirigida d’aquestes molècules

Determinació de totsels canvis nucleotídics

als exons

Eliminació de variantscomuns

Identificació de gens candidats

Exome sequencing

Gilissen et al. (2011) Genome Biology 12: 228

5/3/2012

16

Aplicacions clíniques de la seqüenciació

Malaltia inflamatòria intestinal greu i intractable de causa desconeguda.

Seqüenciació de l’exoma va permetre descobrir una mutació en hemizigosi al gen XIAP (X‐linked inhibitorof apoptosis) del cromosoma X que substitueix un

Nicholas Volker

of apoptosis) del cromosoma X que substitueix un aminoàcid cisteína funcionalment important per una tirosina.

Un transplantament del moll de l’os ha salvat la vida al pacient.

Child

Worthey et al. (2011) Genet Med. 13:255‐62.

Mother

el genoma humanobioinformatica.uab.cat/base/documents/mastergp/el genoma...• seqüenciaciópel...

Documents