bioinformatic phd. course

32
Bioinformatic PhD. course Bioinformatics Xavier Messeguer Peypoch (http://www.lsi.upc.es/~alggen) LSI Dep. de Llenguatges i Sistemes Informàtics BSC Barcelona Supercomputing Center Universitat Politècnica de Catalunya

Upload: iain

Post on 18-Mar-2016

70 views

Category:

Documents


1 download

DESCRIPTION

Bioinformatic PhD. course. Bioinformatics Xavier Messeguer Peypoch (http://www.lsi.upc.es/~alggen) LSI Dep. de Llenguatges i Sistemes Informàtics BSC Barcelona Supercomputing Center Universitat Politècnica de Catalunya. Contents. 1. Biological introduction. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Bioinformatic PhD. course

Bioinformatic PhD. course

Bioinformatics

Xavier Messeguer Peypoch (http://www.lsi.upc.es/~alggen)

LSI Dep. de Llenguatges i Sistemes InformàticsBSC Barcelona Supercomputing Center

Universitat Politècnica de Catalunya

Page 2: Bioinformatic PhD. course

Contents

1. Biological introduction

Exact Extended Approximate

4. Projects: PROMO, MREPATT, …

5. Sequence assembly

2. Comparison of short sequences ( up to 10.000bps) Dot Matrix Pairwise alignment Multiple alignment

3. Comparison of large sequences ( more that 10.000bps) Data structures Suffix trees MUMs

4. String matching

Page 3: Bioinformatic PhD. course

Contents

1. Biological introduction

Exact Extended Approximate

4. Projects: PROMO, MREPATT, …

5. Sequence assembly

2. Comparison of short sequences ( up to 10.000bps) Dot Matrix Pairwise alignment Multiple alignment

3. Comparison of large sequences ( more that 10.000bps) Data structures Suffix trees MUMs

4. String matching

Page 4: Bioinformatic PhD. course

Genoma

• Els cromosomes són els volums d’una enciclopèdia anomanada Genoma.

Cél.lula

Nucli

Teixit

Les lletres, les paraules i les frases com són?

• El cromosomes contenen les instruccions necessàries per viure i reproduir-se.

Page 5: Bioinformatic PhD. course

Dna STRUCTURE

1953 – Watson and Crickdiscover the structure of DNA

1953 – Rosalind FranklinX difraction image of DNA

Page 6: Bioinformatic PhD. course

Cromosomes: les lletres

Llavors un cromosoma serà:... A T A G G C T A C G C A A A C C G G T C T A ...

Dues cadenes de DNA:• alfabet quatre bases { A, C, G, T}• complementàries (A T, G C)

Base

Page 7: Bioinformatic PhD. course

Cromosomes: les lletres

... G A C T ...

Llavors G A C T = A G T C

Les paraules i les frases com són?

... C T G A ..

Si busquem GACT dins la seqüènciaCACGACTATACGATATCGACTCATACGAGTCGTACGTA

Page 8: Bioinformatic PhD. course

Cromosomes: les frases i les paraulesDNA:

Promotor GenDNA:

(gana matí estiu) (Torrades amb mantega i melmelada)DNA:

Page 9: Bioinformatic PhD. course

Cromosomes: activació d’una instrucció

Transcripció

DNA:

Promotor GenDNA:

(gana matí estiu) (Torrades amb mantega i melmelada)

DNA:

RNA:

Page 10: Bioinformatic PhD. course

Transcription

Page 11: Bioinformatic PhD. course

Cromosomes: activació d’una instrucció

Traducció

Transcripció

Maduració

DNA:

Promotor GenDNA:

(gana matí estiu) (Torrades amb mantega i melmelada)

DNA:

RNA:

RNA:

Page 12: Bioinformatic PhD. course

Cromosomes: activació d’una instrucció

Traducció

Transcripció

Maduració

DNA:

Promotor GenDNA:

(gana matí estiu) (Torrades amb mantega i melmelada)

DNA:

RNA:

RNA:

Síntesi

Com passa dinsde la cel.lula?

Page 13: Bioinformatic PhD. course

Dogma central de la biologia molecular

Page 14: Bioinformatic PhD. course

Síntesi de les proteïnes

Dins la cel.lula:

mol/cel tipusmRNA 1500 600tRNA 200000 >3000Proteïnes 106 2000

Page 15: Bioinformatic PhD. course

Cromosomes: activació d’una instrucció

Traducció

Transcripció

Maduració

DNA:

Promotor GenDNA:

(gana matí estiu) (Torrades amb mantega i melmelada)

DNA:

RNA:

RNA:

Plegament: quines fases té?

Page 16: Bioinformatic PhD. course

Plegament de la proteïna

Page 17: Bioinformatic PhD. course

Proteins

Page 18: Bioinformatic PhD. course

Proteins

QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHPFLFLIKHNPTNTIVYFGRYWSP

Page 19: Bioinformatic PhD. course

Activació d’una instrucció (a l’inversa)

Traducció

Transcripció

Maduració

DNA:

Promotor GenDNA:

(gana matí estiu) (Torrades amb mantega i melmelada)

DNA:

RNA:

RNA:

Plegament

Page 20: Bioinformatic PhD. course

Traducció

Alfabet RNA{A,C,G,U}

Alfabet proteïnes{A,I,H,…}

Llavors la informació

està codificada com

ACUCCAUUCUUUAACAGGGCCAUAUCGGCUAUAGGCCGAGUUAGGUACGAUUAGCACGGAUACUAGCAUAUGCAUCGUAUAGCAUCGAUUAGAA

ACUCCAUUCUUUAACAGGGCCAUAUCGGCUAAGGCCGAGUUAGGUACGAUUAGCACGGAUAUAGCAUAUGCAUCGUAUAGCAUCGAUUAG

que és la traducció deLRRLPGAATXXYRTFAAGTRRRXXXWA

LRRLPGAATXXYRTFAAGTRRRXXXWA

Traducció

Transcripció

MaduracióRNA:

RNA:

Gen:

Page 21: Bioinformatic PhD. course

Maduració

està distribuïda en trossosACUCCAUUCUUUAAACCGUACUACACACACUACUGAUCGACGAUUACGACGACGAAAGGGCCAUAUCGGCUAACUACAUCAUAGACAACAUCACGGAUCGUCUAAGGCCGAGUUAGGUACGAUUAACGUACGACUACCUAUCGUAUAUACAUCACGGAUAUAACCUAUCUACUACGAUUAACACGAUCUAUCGUACGGCAUAUGCAUCGUAUAGCAUCGAUUAGAAU

La informacióUCUCCAUUCUUUAACAGGAUAUCGGCUAAGGCCGAGUUAGGUACGAUUAGCACGGAUAUAGCAUAUGCAUCGUAUAGCAUCGAUUAGAAU

Traducció

Transcripció

MaduracióRNA:

RNA:

Gen:

UCUCCAUUCUUUAACAGGAUAUCGGCUAAGGCCGAGUUAGGUACGAUUAGCACGGAUAUAGCAUAUGCAUCGUAUAGCAUCGAUUAGAAU

ACUCCAUUCUUUAAACCGUACUACACACACUACUGAUCGACGAUUACGACGACGAAAGGGCCAUAUCGGCUAACUACAUCAUAGACAACAUCACGGAUCGUCUAAGGCCGAGUUAGGUACGAUUAACGUACGACUACCUAUCGUAUAUACAUCACGGAUAUAACCUAUCUACUACGAUUAACACGAUCUAUCGUACGGCAUAUGCAUCGUAUAGCAUCGAUUAGAAU

LRRLPGAATXXYRTFAAGTRRRXXXWA

Page 22: Bioinformatic PhD. course

Maduració

Traducció

Transcripció

MaduracióRNA:

RNA:

Gen:

UCUCCAUUCUUUAACAGGAUAUCGGCUAAGGCCGAGUUAGGUACGAUUAGCACGGAUAUAGCAUAUGCAUCGUAUAGCAUCGAUUAGAAU

ACUCCAUUCUUUAAACCGUACUACACACACUACUGAUCGACGAUUACGACGACGAAAGGGCCAUAUCGGCUAACUACAUCAUAGACAACAUCACGGAUCGUCUAAGGCCGAGUUAGGUACGAUUAACGUACGACUACCUAUCGUAUAUACAUCACGGAUAUAACCUAUCUACUACGAUUAACACGAUCUAUCGUACGGCAUAUGCAUCGUAUAGCAUCGAUUAGAAU

LRRLPGAATXXYRTFAAGTRRRXXXWA

Page 23: Bioinformatic PhD. course

Transcripció

DNA:

Gana mati estiu Torrades amb mantegai melmelada

………………...cagctcgatacgttacgatctacgattacgatcatctatactatactatacgatatatctagatatcgatcta.ACTCCATTCTTTAAACCGTACTACACACACTACTGATCGACGATTACGACGACGAAAGGGCCATATCGGCTAACTACATCATAGACAACATCACGGATCGTCTAAGGCCGAGTTAGGTACGATTAACGTACGACTACCTATCGTATATACATCACGGATATAACCTATCTACTACGATTAACACGATCTATCGTACGGCATATGCATCGTATAGCATCGATTAGAAT………………..

………………...cagctcgatacgttacgatctacgattacgatcatctatactatactatacgatatatctagatatcgatcta.ACTCCATTCTTTAAACCGTACTACACACACTACTGATCGACGATTACGACGACGAAAGGGCCATATCGGCTAACTACATCATAGACAACATCACGGATCGTCTAAGGCCGAGTTAGGTACGATTAACGTACGACTACCTATCGTATATACATCACGGATATAACCTATCTACTACGATTAACACGATCTATCGTACGGCATATGCATCGTATAGCATCGATTAGAAT………………..

Traducció

Transcripció

MaduracióRNA:

RNA:

Gen:

ACUCCAUUUAACAGGGCCAUAUCGGCUAAGGCCGAGUUAGGUACGAUUAGCACGGAUAUAGCAUAUGCAUCGUAUAGCAUCGAUUAGAAU

ACUCCAUUCUUUAAACCGUACUACACACACUACUGAUCGACGAUUACGACGACGAAAGGGCCAUAUCGGCUAACUACAUCAUAGACAACAUCACGGAUCGUCUAAGGCCGAGUUAGGUACGAUUAACGUACGACUACCUAUCGUAUAUACAUCACGGAUAUAACCUAUCUACUACGAUUAACACGAUCUAUCGUACGGCAUAUGCAUCGUAUAGCAUCGAUUAGAAU

…………….ACTCCATTCTTTAAACCGTACTACACACACTACTGATCGACGATTACGACGACGAAAGGGCCATATCGGCTAACTACATCATAGACAACATCACGGATCGTCTAAGGCCGAGTTAGGTACGATTAACGTACGACTACCTATCGTATATACATCACGGATATAACCTATCTACTACGATTAACACGATCTATCGTACGGCATATGCATCGTATAGCATCGATTAGAAT…………………...

Torrades amb mantega i melmelada

Page 24: Bioinformatic PhD. course

CromosomaTorrades amb mantega i melmelada

DNA:

Torrades amb mantega i melmelada

Traducció

Transcripció

MaduracióRNA:

RNA:

Gen:

ACUCCAUUUAACAGGGCCAUAUCGGCUAAGGCCGAGUUAGGUACGAUUAGCACGGAUAUAGCAUAUGCAUCGUAUAGCAUCGAUUAGAAU

ACUCCAUUCUUUAAACCGUACUACACACACUACUGAUCGACGAUUACGACGACGAAAGGGCCAUAUCGGCUAACUACAUCAUAGACAACAUCACGGAUCGUCUAAGGCCGAGUUAGGUACGAUUAACGUACGACUACCUAUCGUAUAUACAUCACGGAUAUAACCUAUCUACUACGAUUAACACGAUCUAUCGUACGGCAUAUGCAUCGUAUAGCAUCGAUUAGAAU

…………….ACTCCATTCTTTAAACCGTACTACACACACTACTGATCGACGATTACGACGACGAAAGGGCCATATCGGCTAACTACATCATAGACAACATCACGGATCGTCTAAGGCCGAGTTAGGTACGATTAACGTACGACTACCTATCGTATATACATCACGGATATAACCTATCTACTACGATTAACACGATCTATCGTACGGCATATGCATCGTATAGCATCGATTAGAAT…………………...

………………...cagctcgatacgttacgatctacgattacgatcatctatactatactatacgatatatctagatatcgatcta.ACTCCATTCTTTAAACCGTACTACACACACTACTGATCGACGATTACGACGACGAAAGGGCCATATCGGCTAACTACATCATAGACAACATCACGGATCGTCTAAGGCCGAGTTAGGTACGATTAACGTACGACTACCTATCGTATATACATCACGGATATAACCTATCTACTACGATTAACACGATCTATCGTACGGCATATGCATCGTATAGCATCGATTAGAAT………………..

DNA:

Els gens ocupen el 8% del genoma

?

Page 25: Bioinformatic PhD. course

Part d’un cromosomaTACGTATACTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGCGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCCGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTCGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGGTACGATCGTCGATCGTcagctcg atacgttacgatctacgattacgatcatctatactatactatacgatatatctagatatcgatcta.ACTCCATTCTTTAAACCGTACTACACACACTACTGATCGACGATTACGACGACGAAAGGGCCATATCGGCTAACTACATCATAGACAACATCACGGATCGTCTAAGGCCGAGTTAGGTACGATTAACGTACGACTACCTATCGTATATACATCACGGATATAACCTATCTACTACGATTAACACGATCTATCGTACGGCATATGCATCGTATAGCATCGATTAGAATACGTATACGTACGATCGTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGCGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGCTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGATGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTGTCACGTAGCATGCTGACGTACGATCGATTCGATCGATCGTACGATCGTAGCTAGCTAGTCGTAGCGACGTAGGATTCACGTAGCGATGCGTAGCGTAGCATGCTGACGATGCATCGATCGATGCATCATGCTAGCGTAGCTAGCTAGCATGACTGATCGATTAACGGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGCTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGTACGATCGTATGCTAGCTAGCATGCATGCATGCATGCAT

Page 26: Bioinformatic PhD. course

On es troba?TACGTATACTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGCGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCCGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTCGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGGTACGATCGTCGATCGTCAGCTCGATACGTTACGATCTACGATTACGATCATCTATACTATACTATACGATATATCTAGATATCGATCTA.ACTCCATTCTTTAAACCGTACTACACACACTACTGATCGACGATTACGACGACGAAAGGGCCATATCGGCTAACTACATCATAGACAACATCACGGATCGTCTAAGGCCGAGTTAGGTACGATTAACGTACGACTACCTATCGTATATACATCACGGATATAACCTATCTACTACGATTAACACGATCTATCGTACGGCATATGCATCGTATAGCATCGATTAGAATACGTATACGTACGATCGTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGCGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGCTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGATGCATGCTAGCGATGCTACGACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGATGCTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACTGCATCGATGCTATACGACGATCGTAGCTACGTACGATCGTACGACGTACGTTACGTACGATCGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTGTCACGTAGCATGCTGACGTACGATCGATTCGATCGATCGTACGATCGTAGCTAGCTAGTCGTAGCGACGTAGGATTCACGTAGCGATGCGTAGCGTAGCATGCTGACGATGCATCGATCGATGCATCATGCTAGCGTAGCTAGCTAGCATGACTGATCGATTAACGGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGTACGGTACACCGCGCACGATCACACGATGCGACGATGCGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGCTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGATCGTACGACTGCTAGCTACGCATGCCTACGTACGTATCCTACGTACGATCGTGCAGCATCGATGCTACGTACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGACGACGATCGATATTAATGCAATCATGCAGCTGCATGCTAGCGATGCTACGTACGATCGTATGCTAGCTAGCATGCATGCATGCATGCAT

Page 27: Bioinformatic PhD. course

Human genome

• Cromosoma 1: 246Mb• …….• Cromosoma 22: 47Mb• Cromosoma X: 149Mb• Cromosoma Y: 58Mb

3000 milions de bases(27 enciclopèdies catalanes)

2001 – Draft of the human genome

Page 28: Bioinformatic PhD. course

Human chromosomes

Page 29: Bioinformatic PhD. course

What’s in the human genome?

gene non-coding part

gene coding part(2%)

“parasitic”repetitiveelements

microsatellitesDNA long repeats

Page 30: Bioinformatic PhD. course

Annotation

Page 31: Bioinformatic PhD. course

Comparison with another genomes

Organism Genome Size (Bases) Estimated Genes

Human (Homo sapiens) 3000 million 30,000

Laboratory mouse (M. musculus) 2600 million 30,000

Mustard weed (A. thaliana) 100 million 25,000

Roundworm (C. elegans) 97 million 19,000

Fruit fly (D. melanogaster) 137 million 13,000

Yeast (S. cerevisiae) 12.1 million 6,000

Bacterium (E. coli) 4.6 million 3,200

Human immunodeficiency virus (HIV) 9700 9

Genbank: http://www.ncbi.nim.nih.gov

Page 32: Bioinformatic PhD. course

Homework

1. TGDS Javier 14. ZFP1612. NR1H2 Dmitry 15. PROZ3. ATP5L2 Ana Iris4. MYCL3 David5. ETAA16 Patricia6. CRYBA2 Rogeli7. LOC389199 Atif8. NOS3 Aina9. FSCN3 Isaac10. C9orf122 Maria Merce11. MTTS1 Romina12. AMELY Guillem13. BiT1 Raul