high throughput genotyping e next generation sequencing

71
High throughput genotyping e next generation sequencing: next generation sequencing: nuovi strumenti e strategie di analisi d ll i ti della ricerca genetica Dr. Angius Andrea 16.02.2011 SALA AUDITORIUM via Roma, 253 Cagliari

Upload: crs4-research-center-in-sardinia

Post on 14-Jun-2015

7.565 views

Category:

Business


2 download

DESCRIPTION

Nuovi strumenti e strategie di analisi della ricerca genetica.Speaker Andrea Angius (CNR)Feb 16 2011 - Collana di seminari per la valorizzazione dei risultati della ricerca al CRS4AbstractVengono illustrati gli strumenti per l’identificazione, l’isolamento e la caratterizzazione delle varianti genetiche, dei geni e pathway metabolici, focalizzando l’attenzione su quelle patologie che presentano una forte componente genetica e un’elevata incidenza nella popolazione sarda.

TRANSCRIPT

Page 1: High throughput genotyping e next generation sequencing

High throughput genotyping e next generation sequencing:next generation sequencing: nuovi strumenti e strategie di analisi

d ll i tidella ricerca genetica

Dr. Angius Andrea  16.02.2011 ‐ SALA AUDITORIUM

via Roma, 253 ‐ Cagliari

Page 2: High throughput genotyping e next generation sequencing

Il punto di partenza odierno degli studi di genomica èIl punto di partenza odierno degli studi di genomica èrappresentato dalla sequenza completa del genoma umano, dastudi che ci mettono a disposizione una mappa dettagliata dellap pp gvariabilità genetica e dalla possibilità di poter misurare i varifenotipi a diversi livelli di profondità.

Le nuove tecnologie ci permettono ora di poter incrementare glistudi in maniera più efficace e sicuramente più veloce.

Ultimamente le tecnologiead alta processività sonoad alta processività sonosempre più utilizzate eperfezionate e impiegateper diversi approcci chevanno dal genotypingll’ i i llall’espressione genica allaproteomica.

Page 3: High throughput genotyping e next generation sequencing

In alcune malattie umane importanti come il diabete o l’asma,l’evento morboso è caratterizzato dall’interazione tra diversel evento morboso è caratterizzato dall interazione tra diversevarianti genetiche e ambiente. Queste malattie definite comepoligeniche e multifattoriali o complesse, mostrano una ovviafamiliarità ma raramente obbediscono alle leggi dellatrasmissione mendeliana, e l’identificazione delle componenti

i h i l diffi il i ibil li i digenetiche risulta difficile se non impossibile con semplici metodidi mappaggio quali il linkage o il clonaggio per posizione.

L’approccio utilizzato fino a poco tempo fa per il loro studio eraquello dell’analisi di linkage, che mira ad identificare quelleq g , qregioni cromosomiche che vengono trasmesse ai membri affettidella famiglia in maniera simile (co‐segregazione di una porzione

)del DNA con la malattia).

Page 4: High throughput genotyping e next generation sequencing

L’analisi di linkage si è rivelata particolarmente efficace eLanalisi di linkage si è rivelata particolarmente efficace estatisticamente valida per lo studio di malattie monogeniche rare,ma al contrario, il suo potere è scarso per malattie comuni,poligeniche e con modelli di trasmissione non puramenteMendeliani.

Le regioni genomiche identificate da studi di linkage per tratticomplessi sono state difficilmente replicate in altri gruppi dicomplessi sono state difficilmente replicate in altri gruppi distudio, e la loro veridicità resta quindi ancora da accertare.

Page 5: High throughput genotyping e next generation sequencing

Per le malattie complesse comuni, il metodo attualmente piùutilizzato, efficace e semplice da condurre è lo studio diassociazione caso controlloassociazione caso‐controllo.

Per questo tipo di analisi si selezionano due gruppi di individui, uno di soggettiaffetti dalla malattia di interesse, i cosiddetti casi, ed uno di individui sani, icosiddetti controlli, e si ricerca una specifica variante genica che è più frequentetra i casi rispetto ai controlli.tra i casi rispetto ai controlli.

In maniera simile, questo tipo di test può essere applicato anchell t di di t tti tit ti i li l’ lt l iallo studio di tratti quantitativi, quali l’altezza o la pressionesanguigna in una popolazione sana. Si cercherà in questo casoquella variante genica che risulta più frequente tra gli individui conquella variante genica che risulta più frequente tra gli individui convalori alti rispetto a quelli con valori bassi, dove alto/basso nonindica valori patologici ma solo una condizione rispetto alla mediadella popolazione normale.

Page 6: High throughput genotyping e next generation sequencing

Per poter eseguire uno studio d’analisi delle malattiel è i di t d d icomplesse è necessario predisporre uno study design

ben articolato e pianificato, e dimensionare ili i li i i i t i i di i ticampione in analisi sia in termini di approccio, costi e

tempi che della scelta delle tecnologie da utilizzare.

In questo momento esiste la possibilità di avere adisposizione varie tecniche scalabili sia in terminidisposizione varie tecniche scalabili sia in termininumerici che economici che ci permettono di poterscegliere il miglior compromessoscegliere il miglior compromesso.

Page 7: High throughput genotyping e next generation sequencing

Inoltre possiamo contare su nuove tecniche che ci permettono dianali are a fondo sia i marcatori con aria ioni di n mero (CNV)analizzare a fondo sia i marcatori con variazioni di numero (CNV)che l’espressione su tutti i trascritti genici contemporaneamenteper rilevare le loro variazioni sia su diversi tessuti che sotto diversiper rilevare le loro variazioni sia su diversi tessuti che sotto diversistimoli esterni naturali o indotti artificialmente.

Infine la crescente bibliografia ci permette di poter contare suirisultati di una serie di consorzi a livello internazionale per poter

li i d ti iù di l i lid ì i i lt tireplicare i dati su più di una popolazione e validare così i risultatidi associazione tra varianti in associazione e/o predisponenti allamalattie complesse in studiomalattie complesse in studio.

Page 8: High throughput genotyping e next generation sequencing

Negli studi di genetica possiamo identificare 3 principali tipi divarianti rappresentate dalle variazioni di un singolo nucleotidevarianti rappresentate dalle varia ioni di un singolo nucleotide(SNP), le inserzioni e/o delezioni (indel) e le variazioni dinumero (CNV).Utilizzando le tecniche che prevedono l’impiego dei microarraysabbiamo la possibilità di genotipizzare contemporaneamentei li i di i imigliaia di varianti.

Per gli studi di linkage è utile utilizzare da 3.000 a 10.000markers per identificare zone genomiche in associazione con lamarkers per identificare zone genomiche in associazione con lamalattia e comparati ai marcatori più tradizionali dannosicuramente notevoli benefici in termini di tempi, costi,sicuramente notevoli benefici in termini di tempi, costi,ampiezza ridotta delle zone identificate e possibilità di falsipositivi.

Page 9: High throughput genotyping e next generation sequencing

Nel caso di studi che utilizzano i CNV è utile identificare da10.000 a 1.000.000 markers e focalizzare gli studi soprattutto su0.000 a .000.000 markers e focali are gli studi soprattutto suoncogeni e/o regioni genomiche delete o duplicate.

Per gli studi associazione su larga scala (GWAS) i numeri vannoda 100 mila a 1‐2 milioni di markers per un numero consistentedi individui da comparare (diverse migliaia)di individui da comparare (diverse migliaia).I marcatori devono essere adeguatamente spaziati e tenerconto delle caratteristiche genetiche delle popolazioni diverseconto delle caratteristiche genetiche delle popolazioni diverseper etnia etc.L’analisi degli SNPs in particolare necessità di una serie diLanalisi degli SNPs in particolare necessità di una serie diconsiderazione sullo study design, sulle strutture o sub‐strutturedi popolazione e sui metodi di analisi statistica su tutto ilgenoma.

Page 10: High throughput genotyping e next generation sequencing

Per esempio in particolare per lo study design dobbiamoanalizzare preventivamente: l’ereditarietà del tratto il fenotipo eanalizzare preventivamente: l ereditarietà del tratto, il fenotipo ela sua variabilità, la potenza statistica del nostro campione, l’etniae la scelta del campione per la replica indipendente dei risultati.Per la selezione degli SNPs dobbiamo tenere conto dellecaratteristiche del linkage disequilibrium per selezionare imarcatori in maniera diretta nel caso le varianti siano causali dellamalattia e indiretta nel caso vengano ereditate preferenzialmenteinsieme alle varianti causaliinsieme alle varianti causali.I parametri principali per la selezione degli SNPs sono lefrequenze alleliche > 5% la possibilità di selezionare SNPs chefrequenze alleliche > 5%, la possibilità di selezionare SNPs checodificano per aminoacidi diversi dal wild type e i pattern dilinkage disequilibrium.g q

Page 11: High throughput genotyping e next generation sequencing

Al momento esiste la possibilità di poter contare su vari databaseAl momento esiste la possibilità di poter contare su vari databaseche sono rappresentati dalla referenza generale della sequenzadel DNA umano, dalla descrizione di vari milioni di variantidel DNA umano, dalla descrizione di vari milioni di variantigenetiche validate e studiate in varie popolazioni e dallapossibilità di assemblare mappe di marcatori molecolari adeguatealle esigenze di studi di associazione e/o di linkage.

Page 12: High throughput genotyping e next generation sequencing

Un esempio concreto di queste strategie è rappresentato dallascelta dei markers da posizionare sugli array commerciali.

Per esempio nel caso delChip Affymetrix 500K laselezione dei marcatori èselezione dei marcatori èpartita da circa 2 milioni dimarcatori analizzati in unnumero limitato di soggettiggdi varie etnie che hannoristretto la scelta a circa650.000 SNPs che sono statipoi ulteriormente studiati inun campione di individui piùampio, circa 400, che hapermesso di ottenere unaselezione finale di circa500.000 marcatori concaratteristiche ottimali pergli studi da effettuare.

Page 13: High throughput genotyping e next generation sequencing

Si ò d d i iù l i i iSi può notare come passando da marcatori più classici come imicrosatelliti, il coverage del nostro genoma sia stato sicuramentemigliorato in maniera drastica e più consona alle analisi dellemigliorato in maniera drastica e più consona alle analisi dellemalattie complesse anche se esistono delle differenze tra vari tipi dimicroarray che rendono alcuni di essi più adatti a certe popolazionipiuttosto che ad altre.

Page 14: High throughput genotyping e next generation sequencing

E i l l 2 i d h dEsistono al momento sul mercato 2 aziende che produconomicroarrays che vengono utilizzate in maniera massiva dallacomunità scientifica: l’Affymetrix e l’Illuminacomunità scientifica: lAffymetrix e l Illumina.Esistono vari prodotti delle 2 case che vanno incontro a differentiesigenze in termini di costi e obbiettivi. Ad esempio Affymetrixesigenze in termini di costi e obbiettivi. Ad esempio Affymetrixproduce un chip da 100K, uno da 500k ed uno da 1 milione diSNPs ed anche Illumina possiede dei prodotti paragonabili.

Affymetrix Genome-Wide Human SNP Array 6.0

Illumina HumanHap300 BeadChipp

Page 15: High throughput genotyping e next generation sequencing

P iò h l i di d i di iPer ciò che concerne la tecnica di produzione di questi arraysl’Affymetrix utilizza la fotolitografia.La fabbricazione del Chip comincia da un wafer di quarzo di 5 inch quadrati Poiché il quarzo è unLa fabbricazione del Chip comincia da un wafer di quarzo di 5‐inch quadrati. Poiché il quarzo è unmateriale idrossilato naturalmente, esso fornisce un eccellente substrato per l’attacco di elementichimici. Su di esso vengono quindi posizionate molecole di collegamento sintetiche (molecole“linker”) modificate con gruppi di protezione rimovibili fotochimicamente che servirannof g pp p fsuccessivamente per posizionare le sonde sull’array. La distanza fra queste molecole “linker”determina la densità di riempimento delle sonde.

Page 16: High throughput genotyping e next generation sequencing

Il i i i di b di i li è ll d ll ib id iIl principio di base di tutti gli arrays è quello della ibridazione:all’interno di ogni chip per ogni marcatore saranno posizionate 40sonde sense e 40 sonde antisense che saranno in grado disonde sense e 40 sonde antisense che saranno in grado diriconoscere in maniera specifica la sequenza del nostromarcatore.Le sonde che riconoscono ognuno degli alleli saranno visibilifornendo come risultato finale un segnale positivo su uno deglialleli per gli omozigoti e positivo su entrambi gli alleli neglieterozigoti.

A/A B/BA/B

Page 17: High throughput genotyping e next generation sequencing

A di li l di d li Aff i i i iA grandi linee la metodica degli arrays Affymetrix si riassume inalcuni passaggi fondamentali: la digestione enzimatica del DNAtotale con 2 enzimi di restrizione la legazione di opportuni adapterstotale con 2 enzimi di restrizione, la legazione di opportuni adaptersche consentono di avere a livello delle estremita dei frammenti diDNA le stesse sequenze che vengono successivamente amplificatee frammentate per consentire di avere il massimo dell’efficienzanella reazione diib id i il libridazione e il legamecon un complessoantigene‐anticorpo cheantigene‐anticorpo checonsente di poterutilizzare una molecolafluorescente perindividuare l’avvenutol d DNAlegame tra sonda e DNA.

Page 18: High throughput genotyping e next generation sequencing

Dopo l’ibridazione a temperatura controllata, opportuni lavaggichimici automatizzati utilizzando le fluidiche consentono di rendereil più specifico possibile il legame e poi di portare a termine l’analisidella superficie dell’array tramite una scannerizzazione ad altissimai l irisoluzione.

H b O en Fl idic Station ScannerHyb Oven Fluidic Station Scanner

Page 19: High throughput genotyping e next generation sequencing
Page 20: High throughput genotyping e next generation sequencing

La fase successiva consiste in una analisi informatica che permetteLa fase successiva consiste in una analisi informatica che permettedi poter generare una lista di genotipi dei vari marcatori per ogniindividuo analizzato.Particolare importanza deve essere data in questo caso allagestione e alla creazione e progettazione del sistema informaticoche consente la gestione di queste notevoli moli di dati.

PC 1 PC 2PC 1 Fluidic controlScanningCel file transfert

PC 2 Fluidic controlScanningCel file transfert

PC 3PC 4 PC 3 Cel file transfert Data analysisGeneration of the txt files

PC 4 Cel file transfert Data analysisGeneration of the txt files

PC 5 Transfer of the cel files Data Backup

Page 21: High throughput genotyping e next generation sequencing

l d h h d d fVi sono ormai molti studi che hanno permesso di identificarevarianti causali e/o in associazione con le malattie complesse tra cuitra i primi e forse più conosciuti uno studio del Wellcome Trust casetra i primi e forse più conosciuti uno studio del Wellcome Trust caseControl Consortium che ha preso in considerazione circa 14.000individui affetti da 7 diverse malattie complesse (ipertensionep ( parteriosa, diabete di tipo I e II, artrite reumatoide, malattia diChron, infarto e disordini bipolari).

Page 22: High throughput genotyping e next generation sequencing

I risultati di questo studio hanno permesso di identificare peralcune di queste malattie dei risultati notevoli mentre per alcunealtre come l’ipertensione sicuramente solo dei risultati preliminarida riconfermare. Questo è ciò che era logico aspettarsi in ragioned ll di tt i ti h d ll di t l i h hdelle diverse caratteristiche delle diverse patologie che hannosicuramente sia a livello epidemiologico, che fenotipico emolecolare vari gradi di complessità e variabilitàmolecolare vari gradi di complessità e variabilità.

Questo studio evidenzia anche quali sono le difficoltà negli studi eq gnelle analisi di associazione e mette in evidenza come sia possibileidentificare con alcuni accorgimenti alcuni risultati falsi positivi sullab di diff i i i i h l ibili à di i ibase di differenziazioni etniche o la possibilità di campionamentieterogenei o con sottogruppi sia etnici che fenotipica.

Page 23: High throughput genotyping e next generation sequencing

Lo studio della popolazione sarda ad esempio ha evidenziato la fattibilità diLo studio della popolazione sarda ad esempio ha evidenziato la fattibilità diquesto tipo di approccio che ha portato alla pubblicazione di svariati articoliscientifici di altissimo livello nello studio delle malattie complesse.

Page 24: High throughput genotyping e next generation sequencing

Al t i t l ibilità di t tili iAl momento esiste la possibilità di poter utilizzare i microrrays per svariate applicazioni 

Page 25: High throughput genotyping e next generation sequencing

Risultati dell’analisi di espressione tramite microarraysRisultati dell analisi di espressione tramite microarraysLa heatmap rappresenta i valori di espressione in una tabella, concampioni in colonna e geni nelle righe in cui l'intensità di fluorescenzacampioni in colonna e geni nelle righe, in cui l intensità di fluorescenzae quindi l'espressione dell'rna sono scalati in base all'intensità dicolore per facilitare la visualizzazione.

Clusterizzando per geni e per campioni è possilile

p

campioni è possilile rappresentare in modo efficace pattern di ff p

espressione. 

Nell’esempio i campioni sono divisiNell esempio i campioni sono divisiin due classi fenotipiche (in rosso ein blu in alto).È facile notare i blocchi di geni moltoÈ facile notare i blocchi di geni moltoespressi (in rosso) in entrambi icampioni.

Page 26: High throughput genotyping e next generation sequencing

Sequenziamento di nuova generazioneSono stati sviluppati e utilizzati per progetti internazionali pilota, durante gli ultimianni, una serie estremamente limitata di strumenti di nuova generazione che

Sequenziamento di nuova generazioneanni, una serie estremamente limitata di strumenti di nuova generazione checonsentono di sequenziare per intero il genoma umano in un periodo di tempoestremamente ristretto se paragonato a pochi anni fa.Per sequenziare l’intero genoma di una persona i costi sono passati da circa 100 milioni diPer sequenziare l intero genoma di una persona i costi sono passati da circa 100 milioni didollari a circa 10.000 dollari e da tempi di esecuzione di anni contro alcune settimane, ma iltraguardo che i biologi molecolari si sono prefissi è quello di riuscire a leggere tutto il genomain pochi giorni con costi inferiori ai 1000 dollari.p g f

Page 27: High throughput genotyping e next generation sequencing

Tre aziende principali presenti sul mercato:

Sequenziamento di nuova generazioneTre aziende principali presenti sul mercato:

Strumento 454 [454 GS 20, 454 GS Flex, 454 Titanium](Roche; www roche applied science com)(Roche; www.roche‐applied‐science.com)

Strumento Genome Analyzer/Hiseq (GAIIx, Hiseq2000, Hiscan) (Illumina/Solexa; www illumina com)(Illumina/Solexa; www.illumina.com) 

Strumento SOLiD™ System (Solid 3)(A li d Bi t li dbi t )( Applied Biosystems; www. appliedbiosystems.com)

Ognuna di esse utilizza un principio diverso per il sequenziamento ed è statasviluppata e immessa sula mercato in tempi diversi. La prima piattaforma è stata laRoche/454 FLX Titanium seguita dalla strumentazione Illumina, mentre AppliedBiosystems ha subito un certo ritardo rispetto alle concorrenti.

Page 28: High throughput genotyping e next generation sequencing

Si b l i i i d lSi basano sul principio del sequenziamento di 'cluster' clonaliq

Il processo, che incomincia con una singola molecola target, prevedela creazione di targets clonali durante un processo intermedio dig pamplificazione. Copie multiple identiche sono infatti necessarie peravere un alto rapporto segnale‐rumore.

SequenziamentoSequenziamento mediante sintesi (SBS) Sequenziamento

mediante ligazione (SBL) SOLID

Chimica con terminatoriSOLEXA

Chimica del pirosequenziamento

454

Page 29: High throughput genotyping e next generation sequencing

Sequenziamento Sanger ad alta processività

Preparazione della libreriaFrammentazione casuale del DNA genomico

l i f i i b i 7 10 giorniclonazione e trasformazione in batteri

Raccolta delle colonie

7-10 giorniassumendo di possedere una piattaforma robotica per alta processivitàper alta processività

Settimane-anni (!)Purificazione del DNA dalle colonieSequenziamento SangerElettroforesi capillare

Settimane anni (!)dipendentemente dalla dimensione del genoma 

(e copertura richiesta) , 

Mappatura delle reads su un genoma di riferimento (o assemblaggio de novo)

dal numero di sequenziatoricapillari

( gg )

Page 30: High throughput genotyping e next generation sequencing

Sequenziamento di nuova generazione

Preparazione della libreriaFrammentazione casuale del DNA genomicoFrammentazione casuale del DNA genomico

Ligazione degli adattatori 1 – 3 giorni

Amplificazione clonale dei frammenti

Seq en iamento mediante sintesi o liga ioneSequenziamento mediante sintesi o ligazione

Processamento delle immagini

1 – 6 giorni

Mappatura delle reads su un genoma di riferimento ( bl d )(o assemblaggio de novo)

Page 31: High throughput genotyping e next generation sequencing

Vantaggi delle piattaforme di nuova generazione• No sub‐clonazione, no utilizzo di cellule batteriche

‐ abolizione di bias di clonazione‐ rapidità nel preparare le librerie

• Ciascuna sequenza proviene da una molecola di DNA unica.quantificazione attraverso 'conta' digitale‐ quantificazione attraverso conta digitale

‐ aumento del range dinamico‐ rilevazione di varianti rare

• Fornisce una eccezionale risoluzione per molti tipi di esperimenti (es.analisi di espressione, sequenziamento di DNA immunoprecipitato, dimicro RNA analisi di medie/grandi inserzioni delezioni nei genomi )micro RNA, analisi di medie/grandi inserzioni‐delezioni nei genomi….)

• Rivoluzionaria diminuzione del costo e del tempo per generare dati disequenza (lavorano in multi‐parallelo)

• Richiesta meno robotica nelle fasi precedenti al caricamento sulsequenziatore

Page 32: High throughput genotyping e next generation sequencing

Svantaggi delle piattaforme next-genS d tt iù tSono prodotte sequenze più corte

‐ relativamente alle sequenze da sequenziatori capillari (metodo Sanger)‐ è necessario ri‐parametrizzare l’accuratezza della procedura diè necessario ri parametrizzare l accuratezza della procedura di chiamata delle basi‐ enorme difficoltà nell’analisi dei dati; richiesto un grande sforzo di 

i t i i l it iprogrammazione per costruire nuovi algoritmi.

La mole enorme di dati ‘traumatizza’ le infrastrutture informatiche.La mole enorme di dati  traumatizza  le infrastrutture informatiche.‐ da 10 Gb a diversi Tb di dati grezzi prodotti per corsa (dipende dalla piattaforma) ‐ il processamento delle read tramite pipeline informatiche richiede molta capacità di calcolo (CPU)‐ è necessario prendere accurate decisioni su cosa salvare e cosaè necessario prendere  accurate decisioni su cosa salvare e cosa cancellare

Page 33: High throughput genotyping e next generation sequencing

Sequenze corte• Sequenze corte, ma tecnologia in continua evoluzione: 

• 454: 100 basi → 200 → 400‐500 → ?S lid 25 b i→ 35→ 50→ 100→ ?• Solid: 25 basi → 35 → 50 → 100 → ?

• Illumina: 32 → 36 → 75‐100 → 125 → 150 → ?

• Difficoltà di assemblare sequenze corte de novo, soprattutto per il problema delle sequenze ripetute complicato ancora di iù i S (l h di 700 750b )più rispetto a Sanger (lunghezza media 700‐750bp) 

Page 34: High throughput genotyping e next generation sequencing

Risequenziamento• In presenza di un genoma di riferimento di buona qualità possoIn presenza di un genoma di riferimento di buona qualità posso 

effettuare un ri‐sequenziamento e allineare tutte le reads ottenute:

ExonsExons

• Non solo del genoma, h d l Genomic DNA

IntronsExonsExons

ma anche del trascrittoma   Genomic DNA

Page 35: High throughput genotyping e next generation sequencing

P i d d (PE)Paired-end (PE)• Tutte le piattaforme next‐gen offrono la possibilità di produrrep g p p

‘paired‐end read’, cioè la sequenza può essere derivata da ciascunadelle due estremità di ogni frammento della libreria

In generale le reads PEIn generale, le reads  PE offrono vantaggi che dipendono dalla l ità d lcomplessità del genoma 

e dall’applicazione o dal tipo di esperimento

Page 36: High throughput genotyping e next generation sequencing

Il bl (!) d ll l di d i dIl problema (!) della enorme mole di dati prodotta• E’ un problema chiave che limita una più ampia adozione di questi 

strumenti da parte dei laboratori

• 1 ABI3730xl genera fino un max di 260 milioni di paia di basi di1 ABI3730xl genera fino un max di 260 milioni di paia di basi di sequenza all’anno

• Quando nel 2004 2005 è stato lanciato il primo 454 produceva una• Quando nel 2004‐2005 è stato lanciato il primo 454 produceva una quantità di dati in un anno superiore a quella prodotta da più di 50 ABI3730xl

• Il problema dell’ ‘indigestione’ di dati è dal 2005 ulteriormente peggiorato sia per il 454 che a causa della possibilità di scelta anche p gg p pdelle altre due piattaforme (Illumina/Solexa lanciata sul mercato nel 2006 e Solid nel 2007)

• Produzione una decina di gigabytes di dati per corsa per 454, 1‐4 terabytes di dati per corsa per Illumina e Solid

Page 37: High throughput genotyping e next generation sequencing

Statistiche sulle tre piattaforme

Page 38: High throughput genotyping e next generation sequencing
Page 39: High throughput genotyping e next generation sequencing

Sequencing by Synthesis [SOLEXATM system]q g y y [ y ]

Il sistema SOLEXA prodotto da Illumina è una piattaforma per ilIl sistema SOLEXA prodotto da Illumina è una piattaforma per ilsequenziamento in parallelo di segmenti di DNA amplificati inmodo clonale.La metodologia di sequenziamento è basata sulla ”sintesisequenziale" di oligonucleotidi attraverso l’utilizzo di terminatoridideossi reversibilidideossi reversibili.Il sistema SOLEXA può generare oltre 300 Gbp di dati di sequenza(sequenze di lunghezza pari a 100‐150 bp) con un'accuratezzasuperiore al 99%.

Page 40: High throughput genotyping e next generation sequencing

Sequencing b S nthesisby Synthesis [SOLEXATM

system]

Page 41: High throughput genotyping e next generation sequencing

Seq encing b S nthesis [SOLEXATM s stem]Sequencing by Synthesis [SOLEXATM system]

La preparazione delle libraries cominciaLa preparazione delle libraries cominciacon la frammentazione del DNAgenomico, seguita dalla riparazione delleg , g pestremità e dalla ligazione degliadattatori.

Page 42: High throughput genotyping e next generation sequencing

Agilent’s Lab on a chip

Page 43: High throughput genotyping e next generation sequencing

La flow cell è un supporto in vetro delledimensioni di un vetrino da microscopiodimensioni di un vetrino da microscopioche contiene 8 lane a loro volta suddivisein 120 tile: dei quadrati in cui è possibilefissare circa 220.000 molecole di DNA.

Page 44: High throughput genotyping e next generation sequencing

Template immobilization strategy.Template immobilization strategy.Solid‐phase amplification is composed of two basic steps: initial priming and extending of the single‐stranded, single‐molecule template, and bridge amplification of the immobilized template with immediately adjacent primers to formclusters.

Page 45: High throughput genotyping e next generation sequencing

Il concetto di base è rappresentato da una serie di cicli successivi seguiti dauna serie di fotografie che sono in grado mediante la colorazione delleuna serie di fotografie che sono in grado mediante la colorazione dellemolecole aggiunte man mano nei vari cicli di ricostruire corte sequenze diDNA da comparare e allineare poi rispetto al DNA di riferimento in modo daleggere più volte tutte la basi del nostro acido nucleico.

Page 46: High throughput genotyping e next generation sequencing

Four‐colour and one‐colour cyclicreversible termination methods.

a | The four‐colour cyclic reversibletermination (CRT) method usesIllumina/Solexa’s 3′‐O‐azidomethyl

bl hreversible terminator chemistry23,101 using solid‐phase‐amplifiedtemplate clusters. Following imaging, acleavage step removes the fluorescentd d h 3′ OHdyes and regenerates the 3′‐OH groupusing the reducing agent tris(2‐carboxyethyl)phosphine (TCEP)23.

b | The four‐colour images highlightthe sequencing data from two clonallyamplified templates.

Page 47: High throughput genotyping e next generation sequencing

Vedi video[ b ][You tube: Sequencing genomes with the Illumina Genome Analyzer ]

Page 48: High throughput genotyping e next generation sequencing

TMSequencing by Synthesis [SOLEXATM system]Durante quest’anno questi strumenti sono stati continuamenteDurante quest anno questi strumenti sono stati continuamenteoggetto di upgrade sia dal punto di vista dei reagenti da utilizzareche meccanico che di analisi informatica.

Infatti è stato possibile partire con corse da 51+51 cicli diInfatti è stato possibile partire con corse da 51 51 cicli disequencing della durata di 5 giorni, per poi passare a 76+76 cicli disequencing (9 giorni) e infine a 101+101 cicli di sequencing delladurata di 11 giorni. Questi miglioramenti hanno portato allaproduzione di una quantità di dati di sequenza di circa 3 voltemaggiore che nelle prime corsemaggiore che nelle prime corse.

Page 49: High throughput genotyping e next generation sequencing

TMSequencing by Synthesis [SOLEXATM system]

Particolare importanza è stata data alla creazione e alla gestionedell’apparecchiatura e struttura informatica.È stata creata una pipeline per il flusso dei dati che prevede insequenza: la gestione della Illumina Pipeline, il Quality Check deid ti l’ tili d l ft MAQ l SNP li i il l l d ldati, l’utilizzo del software MAQ, la SNPs analisi, il calcolo delCoverage finale su ogni dato di sequenza e il Monitoraggio costantedi ogni step informatico.di ogni step informatico.In particolare la Pipeline Illumina prevede l’analisi dell’immagine, lagenerazione delle sequenze e l’allineamento delle stesse contro lag qreferenza.

Page 50: High throughput genotyping e next generation sequencing
Page 51: High throughput genotyping e next generation sequencing
Page 52: High throughput genotyping e next generation sequencing
Page 53: High throughput genotyping e next generation sequencing
Page 54: High throughput genotyping e next generation sequencing
Page 55: High throughput genotyping e next generation sequencing
Page 56: High throughput genotyping e next generation sequencing
Page 57: High throughput genotyping e next generation sequencing
Page 58: High throughput genotyping e next generation sequencing
Page 59: High throughput genotyping e next generation sequencing
Page 60: High throughput genotyping e next generation sequencing
Page 61: High throughput genotyping e next generation sequencing
Page 62: High throughput genotyping e next generation sequencing
Page 63: High throughput genotyping e next generation sequencing
Page 64: High throughput genotyping e next generation sequencing
Page 65: High throughput genotyping e next generation sequencing
Page 66: High throughput genotyping e next generation sequencing
Page 67: High throughput genotyping e next generation sequencing
Page 68: High throughput genotyping e next generation sequencing
Page 69: High throughput genotyping e next generation sequencing
Page 70: High throughput genotyping e next generation sequencing

Al t i t l ibilità di t tili iAl momento esiste la possibilità di poter utilizzare i sequenziatori per svariate applicazioni 

Page 71: High throughput genotyping e next generation sequencing

Th kThank you ….