technical and operational assessment of genomic sequencing platforms

91
J LANL FO JPMMC Final RepoDav OR CS T G rt vid Bruce, Mom TECHNI GENOM , Shannon mchilo Vu CAL AN MIC SEQ n Johnson uyisich an D OPER QUENCIN n, Matthe nd Gary Xi RATIONA NG PLAT ew Scholz ie AL ASSE TFORMS August 28, z, ESSMEN S 2013 NT OF

Upload: biological-defense-therapeutics

Post on 22-Mar-2016

234 views

Category:

Documents


15 download

DESCRIPTION

LANL for JPM-MCS

TRANSCRIPT

Page 1: Technical and Operational Assessment of Genomic Sequencing Platforms

J    

 

LANL FOJPM‐MC Final Repor

Dav

OR 

CS 

TG

rt 

vid Bruce,Mom

TECHNIGENOM

, Shannonmchilo Vu

CAL AN

MIC SEQ

n Johnsonuyisich an

D OPER

QUENCIN

n, Matthend Gary Xi

RATIONA

NG PLAT

ew Scholzie 

AL ASSETFORMS

August 28, 

z, 

ESSMEN

2013 

NT OF 

Page 2: Technical and Operational Assessment of Genomic Sequencing Platforms

Technical and Operational Assessment of Genomic Sequencing Platforms

 

Contents

Summary and Background .............................................................................................................. 2

Executive summary ..................................................................................................................... 2

Introduction to next generation sequencing (NGS) ................................................................... 5

Section 1: Technical Assessment of Genomic Sequencing Platforms ............................................ 7

Chapter 1: Applications of Next Generation Sequencing Technologies ..................................... 7

Chapter 2: Requirements for Pathogen Detection and Characterization by NGS .................... 13

Chapter 3: Comparative Analysis of Performance of Current Sequencing Platforms .............. 25

Chapter 4: Survey of Sequencing Centers & Platform Vendors ............................................... 31

Section 2: Operational Assessment .............................................................................................. 36

Appendices .................................................................................................................................... 40

Appendix 1: Glossary ................................................................................................................ 40

Appendix 2: Analysis Pipelines .................................................................................................. 43

Appendix 3: List of software packages mentioned ................................................................... 53

Appendix 4: Comparative Analysis of Performance of Current Sequencing Platforms ........... 58

Appendix 5: Survey to Sequencing Centers and Platform Vendors ......................................... 66

References Cited ........................................................................................................................... 87

 

 

Page 3: Technical and Operational Assessment of Genomic Sequencing Platforms

Summary and Background

Executive summary

Next Generation Sequencing (NGS) is rapidly becoming the technology of choice for detection and characterization of pathogens in clinical and environmental samples. Until recently, NGS was a slow and costly process. However, it is becoming cost‐competitive and sufficiently rapid for many applications. Even though NGS is unlikely to replace the rapid and portable pathogen detection platforms in the near future, in many cases it will provide actionable information faster than the current rapid systems. This is mainly due to the vast amounts of data that NGS provides. It is the only technology that can perform all of the following tasks in parallel from almost any sample: 1) detect all known pathogens: viruses, bacteria, and protozoa, 2) identify emerging pathogens, whether they have naturally evolved or been engineered, and 3) characterize the pathogens (for example, determine antibiotic resistance or pathogenicity markers). 

Within a decade, it is conceivable that NGS applications will contribute to generating a world map displaying the real‐time status of all infectious diseases. The data will be provided by a global network of inter‐connected NGS‐utilizing clinics. Clinical and sequencing data, combined with the computational models of disease progression and easy visualization, will enable accurate prediction and monitoring of disease spread, and reduce the effects on human lives and local economies. Additionally increased understanding of gene features and function will improve understanding of genomic markers for potential disease. 

With the existing or forthcoming hardware and software upgrades, NGS technology will provide actionable information in 16‐48 hours, depending on the platform, the number of samples, and types of information needed. The simplest process includes detection of known pathogens and determination of some of their features, such as antibiotic resistance. More complex processes will involve identification of novel pathogens in mixed samples (clinical or environmental), prediction of their pathogenicity and susceptibility to antibiotics, and matching their identities to pathogens that previously caused serious outbreaks. 

As described in detail in Chapters 1 and 2, sequencing data can be obtained with three different pipelines, each providing different amounts and types of information, depending on the user's requirements (Table 1). It is important to note that most of the facility and training requirements for the three pipelines are the same, regardless of which sequencing system is implemented. 

The three sequencing pipelines can be implemented in many applications and offer significant advantages over traditional methods for pathogen detection and characterization. Here are some realistic scenarios in which the power of genomics can provide relevant, timely, and actionable information. 

 

Page 4: Technical and Operational Assessment of Genomic Sequencing Platforms

 

Pipeline Description Actionable information

1. Amplicon sequencing Rapid sequencing of very small portions of pathogen genomes.

Identify and characterize known pathogens, and some emerging ones. Able to test 100s of samples in parallel.

2. Pathogen identification and characterization in mixed samples

Full sequencing of environmental and clinical samples.

Identify and characterize known and emerging pathogens, including bacteria, viruses, and protozoa.

3. Pure culture (isolate) whole genome sequencing

Whole genome sequencing of one bacterial pathogen isolated from a sample and grown in the lab.

Can identify sequences associated with specific outbreaks. Allows rapid detection of the same pathogen in future outbreaks.

Table 1: Overview of the three NGS pipelines for pathogen detection and characterization that are described in this document.

Outbreaks. The number and severity of infectious disease outbreaks are likely to increase (in humans and animals) due to global trade and travel, human encroachment of wild environments, higher concentrations of domestic animals, climate change, etc. A portion of future outbreaks will likely be caused by emerging pathogens, many of which will not be detectable by current technologies searching for known pathogens. NGS can detect both known and unknown organisms, and combined with accurate data analysis, can rapidly identify any pathogen and its characteristics. The high resolution data provided by NGS can also enable more accurate mitigation and forecasting of outbreaks. 

Monitoring surface contamination in hospitals and living/working areas. Even though decontamination is routinely performed in hospitals, many surfaces still harbor pathogens, often organisms resistant to antibiotics. These pathogens cause millions of hospital‐acquired (nosocomial) infections each year, prolonging existing and causing additional infections. In addition, infected (ill) people can spread the pathogens to various surfaces in living or sleeping areas, causing additional infections. Sequencing can be used to test a large number of surfaces for presence of pathogens and their antibiotic resistance, enabling more effective decontamination procedures and minimizing infections. 

Discovery and tracking of emerging pathogens in all environments (biosurveillance). Identification and characterization of emerging (mutated, unknown, or engineered) pathogens are particularly challenging for current detection technologies that mostly detect known pathogen signatures. NGS has a unique advantage in this area, since it can detect all living organisms, not just already characterized ones. Understanding not only the geographic distribution and diversity of all pathogens, but tracking their change in real time will enable much better prediction and effective responses to many biological outbreaks. Robust sample preparation methods enable sequencing of a wide variety of environmental and clinical samples: insects, soils, indoor surfaces, domestic and wild animals, and humans. 

 

Page 5: Technical and Operational Assessment of Genomic Sequencing Platforms

Table 2 summarizes two example facilities that rely on different NGS platforms. The questions being answered are: What pathogens are in a sample and what actionable information can we gather about them? 

Illumina MiSeq Life Technologies

Ion Torrent PGM / Ion Proton Lab setup and training 2-6 weeks

Lab setup cost (includes computer) ~ $200,000 ~ $200,000 / $375,000

Lab area ~220 - 250 ft2 Power requirements ~40 Amps of peak electrical power and standard outlets

Personnel Two people with standard microbiological/molecular background

Upgrade path Upgrade to HiSeq ($700,000) increases

the number of samples in similar amounts of time.

No hardware upgrades required for years (only disposable sequencing chips will

change). System speed

for amplicon sequencing Hundreds of samples in ~30 hours Hundreds of samples in ~20/30 hours

System speed for sequencing mixed

samples ~1 sample in ~30 hours ~1 / 4 samples in ~20/30 hours

System speed for sequencing pure

culture (isolate) 1-4 samples in ~48 hours ~1 / 10 samples in ~38 /48 hours

Table 2: Description of two hypothetical laboratory facilities that use NGS for pathogen detection and characterization.

In conclusion, next generation sequencing (NGS) technologies have rapidly improved over the last several years and can now quickly and inexpensively generate large amounts of data. NGS is the only molecular platform whose large data output can match the vast diversity of microorganisms. Combined with the clinical information, NGS data can enable appropriate mitigation responses in the shortest amount of time in certain scenarios, such as in cases of unknown outbreaks or hospital infections. As more genomic data sets are obtained about pathogens with known pathogenicity, transmissibility, and susceptibility to vaccines and antibiotics, NGS will be able to provide much more accurate data to inform about the best method of decontamination or treatment of any new pathogen. In addition, the sequencing technology will continue to improve, and should match the speed of today's rapid detectors in just a few years. The sooner NGS is implemented for clinical and biosurveillance applications, the sooner we will have the power to detect, track, and predict the spread and behavior of all pathogens on the global scale   

Page 6: Technical and Operational Assessment of Genomic Sequencing Platforms

Introdu

NGS techsuch as cpure culton the typresent iRNA virubetter undisorders

NGS techNGS librasequenciand addiDNA seqincorporasequencihours anis clonallythe NGS automatalways a

NGS prodstring of in the samlength, thdependinmillion tolonger st

Figure 1:

For manymethods

D

uction to

hnologies caclinical (humtures of orgaype of informn a sample ases, but it isnderstand ths, inflammat

hnologies reqaries. RNA ising technolotion of appruences (usuate barcodeing run. Depd three daysy amplified jplatform. Foed), wherean automated

duces vast aDNA nucleomple. Each Nhe number ong on the plao 4 billion perings of DNA

: Overview of

y applications. For examp

DNA/RNA

Prepara

Se

next gene

n be used toan, animal),anisms of intmation needand their ch also used toheir behaviotory respons

quire that R always convogies. Standaopriate adapally 30‐60 bs (or indicesending on ths. Once the ljust before sor example, s Ion Torrend process. 

mounts of dotides corresNGS platformof reads, andatform and ser run. ReadA or RNA seq

f the next ge

ns, sequenciple, in the fie

extraction fr

ation of a se

equencing

Comput

eration se

o sequence a environmenterest. Sequeed. DNA seqaracteristicso study the ar and identifse, etc. 

NA and DNAverted to DNard library prpter molecups long) whis), providinghe applicatiolibraries are sequencing. the Illuminant platforms 

data, output sponding to tm outputs red their qualitsequencing s can be evaquences usin

eneration seq

ng offers greeld of pathog

rom a sampl

quencing lib

tational anal

equencing

almost any sntal (insectsencing can iquencing usus (specific typactivity of orfy genes tha

A molecules NA first, as creparation ples to DNA fch allow seqthe ability ton, library pprepared, eThis processa platforms uuse emulsio

as sequencithe sequenceads with thty (fidelity). kit used. Reaaluated indeng a variety o

quencing (NG

eat advantaggen detectio

le

brary

lysis of sequ

g (NGS)

sample contas, water, soilnclude DNAually revealspe). RNA seqrganisms duat play key ro

to be sequecurrently theprocesses incfragments enquencing to to multiplexreparation meach DNA fras and its autuse clusterinon PCR (man

ing reads (orce of the origree importaRead lengthad numbers pendently, oof computat

GS) process.

ges over tradon, NGS can 

encing read

aining biolog, surfaces, p

A, RNA, or bos which orgaquencing muring infectiooles in patho

enced are firsere are no diclude DNA fnds. Adapteoccur and cmany sampmethods takagment prestomation levng (MiSeq is nual process)

r just "readsginal DNA orant characterhs vary (50‐1 vary from aor combinedtional tools. 

.

ditional biocnot only ide

s

gical materiaplants, etc.), oth, dependinisms are ust be used on, allowing ogenesis, ge

st convertedrect RNA ragmentatiors are uniquan also les in one ke between tsent in the livel depend ofully ). Sequencin

s"). A read is r RNA molecristics: read 10,000 bps) as few as 1.5d into much 

chemical entify known

al, or ng 

for us to netic 

d to 

on ue 

two brary on 

ng is 

 a cule 

n

Page 7: Technical and Operational Assessment of Genomic Sequencing Platforms

organisms, but also novel, emerging and engineered ones. This is highly relevant, especially for rapidly‐evolving and highly diverse organisms, such as RNA viruses and Burkholderia spp. In addition, NGS does not require prior knowledge of pathogens present in a sample like the traditional detection methods. Therefore, NGS shows promise as the ultimate pathogen detection tool. Other application areas where NGS will play a significant role include pathogen characterization (strain typing, antibiotic resistance, etc.), bioforensics, biometrics and bio‐surveillance. For NGS to succeed in all these applications, basic studies and databases that correlate genotype (genetic sequence of an organism) to phenotype (the behavior of an organism, such as its pathogenicity, transmissibility, resistance, etc.) are required.  

The promise of NGS cannot be realized without significant investments in data analysis (typically referred to as “bioinformatics”) Analysis of NGS data is highly specialized, depending on the application and level of resolution desired for a particular analysis. There are several levels of analysis possible for pathogen identification and characterization, each with different requirements and ability to reach more or less detailed conclusions.  

In conclusion, NGS shows promise for improving current microbiology, virology, and molecular biology methods and for providing new data streams that will help us understand the current state of pathogens and anticipate future changes in the microbial world. 

Physical and personnel requirements

The sequencing process includes laboratory processing of samples and data analysis. Each NGS platform has slightly different requirements for space, electrical supply, equipment and personnel. The platforms discussed in this document in general require ~250 ft2 of temperature‐controlled laboratory space with multiple instruments and one computer. More information is provided in Chapter 2.

 

Page 8: Technical and Operational Assessment of Genomic Sequencing Platforms

Section 1: Technical Assessment of Genomic Sequencing Platforms

Chapter 1: Applications of Next Generation Sequencing Technologies

Besides generating sequencing data in the laboratory, data analysis is an essential component of the process. The large amount of information that NGS provides can be used to rapidly identify and characterize potential biothreat agents from both pure and mixed samples. This chapter describes three analysis pipelines that utilize different input data types for pathogen identification and characterization. Each pipeline has advantages and disadvantages compared to other NGS pipelines and traditional detection approaches. They offer different sequencing throughputs and information, and require different levels of expertise and equipment. Selection of the desired analysis pipeline(s) should be based on the NGS application. 

Current Biothreat agent identification/characterization methods

Sensitive and specific detection and characterization of bacterial and viral pathogens is essential for rapid and accurate decision making. Molecular detection methods have mostly replaced the traditional culturing techniques. Nucleic acid and antibody‐based assays, such as PCR and lateral flow detectors, allow rapid and accurate detection of known pathogens from many sample types, thus decreasing the time required for pathogen identification. However, these assays rely on prior knowledge of the target pathogens and must be redesigned when new strains or variants are discovered or when the signature they target is discovered in non‐pathogenic organisms [1‐3]. Table 3 shows a comparison of several molecular methods for detection and characterization of pathogens. 

Technique Sensitivity Specificity Primary advantage Primary disadvantage

Immunoassays Low to moderate Low to moderate Rapid and low cost Poor specificity PCR (single and

multiplex) Very high Very high Sensitivity and

specificity Low throughput

Microarrays Moderate to high Moderate to very

high Highly multiplexed Low throughput

Sequencing Very high Very high Very high content Cost and time Table 3: Table of pathogen ID/characterization tools currently available compared to Sequencing based methods.

Next Generation Sequencing (NGS) for biothreat agent identification and characterization

Use of NGS for pathogen identification and characterization offers a highly sensitive and specific method to accurately identify pathogens from many sample types. It has several advantages: 1) It can detect multiple pathogens simultaneously in a single sample. 2) It can utilize universal methods for all pathogenic microbes – including unculturable, or not yet culturable, and hard to detect pathogens. 3) It can detect emerging (mutated, novel, and engineered) pathogens. 

Page 9: Technical and Operational Assessment of Genomic Sequencing Platforms

Actionable information generated from analysis

Applications of NGS methods in microbiology and virology are not limited to high‐throughput whole genome sequencing. NGS is an essential tool for discovery of new microorganisms, investigation of microbial communities in various environments, tracking rapid evolution of viruses, and detection of drug‐resistant mutations in pathogens [4‐6]. Here we emphasize the actionable information generated from NGS data analysis, such as antibiotic resistant determinants for defining drug susceptibility patterns and treatment of infectious disease, accurate and definitive pathogen identification and tracking disease outbreaks associated with microbial and viral infections. 

Pipelines

Three pipelines for NGS data analysis are described in this document, each with different applications, data requirements and types of actionable information it can generate. In this section, each of these methods is outlined at a high level. Additionally, a workflow of analysis methods and other technical details are described in Appendix 2.  

Method Description Pros Cons Computational requirements

1. Amplicon sequencing

Rapid sequencing & analysis of very small portions of pathogen genomes (signatures)

High sensitivity and specificity at species level

Limited ability to detect novel pathogens

High throughput

Specificity & classification depend on the choice of primers

Minimal characterization

Low

2. Pathogen identification and characterization in mixed samples

Sequences all living organisms in any sample (environmental, clinical, etc.)

Does not rely on culturing

Accurate for abundant pathogens

Identifies and characterizes emerging pathogens

Reduced sensitivity High computational

requirements for assembly-based data analysis

Can be difficult to interpret

Low to high

3. Pure culture (isolate) whole genome sequencing

Sequencing of one cultured pathogen.

Sequences a pathogen to very high accuracy and coverage

Can characterize virulence factors and antibiotic resistance genes

Requires isolation Requires additional

computational power Not a detection

method

Low to medium

Table 4: Analysis methods or "pipelines" described in this report

1. Amplicon sequencing

Overview

Amplicon sequencing is the deep sequencing of PCR‐products (amplicons) generated with known primers. The process is well established and does not require culturing. It uses NGS to sequence PCR reactions that have been traditionally used as detection assays. This NGS method can run 

Page 10: Technical and Operational Assessment of Genomic Sequencing Platforms

hundreds of tests on hundreds of samples in a single sequencing run, enabling very high throughput and low per‐sample cost. This approach can detect all known pathogens and characterize them to a desired depth (e.g. known markers for antibiotic resistance and pathogenicity). However, it has limited ability to detect emerging pathogens, because the PCR assays have to be designed to amplify known sequences. The laboratory process needed to generate the data is very mature and can be easily semi‐automated.  

Amplicon sequencing data enables rapid and accurate detection and classification of known pathogens at any taxonomic level (even strain). Trained bioinformatics experts are needed only if amplicon data are used to detect emerging pathogens. For pathogen identification analysis, the wide range of available signatures means that specificity and sensitivity are both high for identifying known pathogens at a strain level. 

Data analysis and requirements

The data are generated in the laboratory by sequencing highly multiplexed PCR reactions. False positive results are not a great concern, since each amplicon is fully sequenced. Current NGS platforms provide long enough reads to sequence amplicons of up to 400 bps, providing detailed sequence information within short stretches of the genome. Data analysis can be fully automated when looking for known pathogens and their features. Detection and characterization of emerging pathogens requires some manual data analysis and expertise. 

Due to the maturity of characterization tools available, the computational requirements for amplicon‐based analyses are relatively low. A desktop computer operated by trained person can handle majority of the tasks. These tools are primarily developed to run in LINUX; therefore the person conducting the analysis should be familiar with the LINUX operating system and have some biology training.  

2. Pathogen identification and characterization in mixed samples

Overview

Sequence‐based metagenomics involves extracting and sequencing of DNA directly from a mixed sample (such as a soil sample, or a blood sample of an infected individual). This method can rapidly identify both known pathogen and virulence genes present in the sample, without attribution to a specific agent. The greatest challenge with sequence‐based metagenomics is the large number of sequences without significant similarity to previously sequenced genes or organisms. Lacking known reference sequences, virulence and resistance genes cannot be easily identified in the metagenomes, as well as a significant portion of metagenomic reads cannot be annotated or assigned taxonomy. Given the amount of novel sequence in metagenomic shotgun reads, read‐based classification methods may fail to acknowledge novel pathogens present in the samples. Therefore, several computational tools based on metagenomic de novo assemblies can be applied. Once contigs having been annotated, pathogenicity from those pathogens in the community can be inferred by comparing the metagenomic sequences to large databases of pathogen/virulence factors/antibiotic resistance (for the abundant pathogen). 

Page 11: Technical and Operational Assessment of Genomic Sequencing Platforms

10 

Data Analysis

Sequencing and analysis of metagenomic mixed DNA samples can yield valuable information, however often the target of interest (potential biothreat agent) will only be a very small fraction of the reads. Typically, trimming and QC of the data will be required before use for read mapping. Removal of expected contaminating sequences (e.g. removal of human reads from clinical samples) can also be performed. 

Benefits/Drawbacks

The obvious advantage of the metagenomics approach is that culturing and isolation are not required. Metagenomics can therefore identify difficult to isolate or especially dangerous pathogens. Identification of any potential pathogens is limited to those pathogens used for identification and will not necessarily identify novel or non‐targeted potential biothreat agents in a sample. Therefore some level of false negative is likely to occur, particularly for low abundance pathogens. 

All metagenomic analysis is limited by the depth of coverage generated by the sequencing technology. More complex samples, or low pathogen loads will require more sequencing. Proportionately, this increased sequencing also requires greater computational time and power. 

Requirements and Personnel requirements

For preliminary analysis, including testing for known pathogens and virulence factors requires tools to classify reads and some degree of analysis by the user. For more detailed analysis, including assembly of the pathogen for analysis, the computational and training requirements are very high, requiring assembly, annotation and analysis. While tools are constantly being developed to improve metagenomic analysis, they are not currently at Technology Readiness Levels (TRL) 4 or above. 

Assembly of metagenomes requires a single machine with large RAM and use of proprietary software (CLCBio) to assemble contigs, or the ability to transfer data to a location with these capabilities. Additionally, annotation software and analysis tools listed in the appendix would be required. Extensive expertise in microbiology would also be required to perform these analyses. Therefore, we recommend all analysis would be best conducted by a highly skilled bioinformaticist on a computer cluster at CONUS lab instead. Therefore, a high‐speed internet connection (with T1 or higher) will be required for data transfers.  

3. Pure culture (isolate) whole genome sequencing

Overview

If a pure culture biothreat agent (pathogen) has been isolated, characterization by sequencing and analysis is possible. If similar pathogens have previously been sequenced and classified, sequence data generated from an isolated pathogen can be used to trace the pathogen’s origin and its 

Page 12: Technical and Operational Assessment of Genomic Sequencing Platforms

11 

relationship to other previously characterized pathogens. Further analysis by examining presence/absence of genes such as antibiotic resistance or virulence factors can also allow researchers to more accurately classify a potential pathogen, either to determine if it is harmful, or to select a treatment regime.  

In order to fully classify an unknown or emerging pathogen, assembly of generated reads would result in better comparisons to reference genomes, but also allow annotation. Annotation results can then be examined to identify the biothreat agent, and better classify it by its functional capacity, such as antibiotic resistance, or other factors. Use of isolate genome assembly and analysis techniques may detect and characterize novel or emerging pathogens.  

Input Data

Input for analysis is data from an isolated pathogen sequencing run and data from a related reference genome. Typically, trimming and QC of the sequencing data will be required before use for read mapping. 

Benefits/Drawbacks

This is a highly robust and discriminatory method for characterizing the genome of an isolated biothreat agent. It has low to medium computational requirements, so it can rapidly identify pathogen and its virulence/antibiotic resistance genes. It is more difficult to identify novel genes or DNA molecules that have been introduced into a biothreat agent, leading to potential false‐negative results when searching for specific pathogenicity or virulence factors. Therefore, assembly based method is applicable to identify foreign elements in a biothreat agent that are not present in the near‐neighbor reference. This can occur as a result of a pathogen acquiring pathogenicity factors, either naturally or due to a genetic engineering event. Since assembly of genomes is a difficult process and requires additional computational power, it takes longer to process. It is recommended that in‐depth analysis or assembly be performed by well‐trained experienced personnel. 

Hardware Requirements and Personnel requirements

To perform analysis of genomic differences, rapid alignment tools, a reference genome and its annotation are all required. To maintain all required components on a local machine, a multiple‐processor computer with sufficient RAM (>4GB) would be needed. If de novo annotation of assembled sequences is desired, either significant investment in software and hardware for this purpose or high‐speed internet access to an external annotation portal will be required. While this is the most powerful of the analysis techniques for isolated genomes, it requires a high degree of expertise (at CONUS laboratories), including understanding of gene annotations and virulence factors.  

As described above, the analyst should be familiar with LINUX operating system and have biology training. Alternatively, use of complete genome analysis solutions, such as EDGE or CLC bio will reduce the need for understanding of LINUX. Assembly and analysis of antibiotic resistance and 

Page 13: Technical and Operational Assessment of Genomic Sequencing Platforms

12 

virulence genes can be done at OCONUS laboratories by well‐trained personnel. Due to the complexities of in depth analysis of complete genome assemblies, more detailed analyses or improved assemblies must be handled by highly trained biologists, and is not recommended at OCONUS laboratories. 

This process will have very low value when unknown or emerging pathogens are to be analyzed. 

 

Page 14: Technical and Operational Assessment of Genomic Sequencing Platforms

13 

Chapter 2: Requirements for Pathogen Detection and Characterization by NGS

This chapter describes the physical and personnel requirements for producing sequence data to be used by the computational pipelines described in Chapter 1. In addition, the three recommended sequencing pipelines are described in some detail, including steps starting from the collection of clinical and environmental samples to the generation of sequencing data in a specific output format (fastq, sff). 

Recommended sequencing pipelines and their physical requirements

Based on literature searches, interviews with other sequencing centers (see Chapter 4) and our own studies (see Chapter 3), we make specific recommendations for laboratory processes (pipelines) that transform crude samples into sequencing data. These processes are described below and depicted in Figure 22. 

 Figure 2: Overview of the laboratory processes required to generate sequencing data that can provide actionable information.

Sample collection and storage

Samples to be sequenced are of either clinical or environmental origin. Clinical samples are collected from humans or animals, and can be in the form of blood, stool, cerebrospinal fluid (CSF), or swabs from wounds, nose, or throat. Environmental samples may be collected from arthropods (mosquitos, ticks, etc.), surfaces (swipes), soil, or water sources. 

Sample types

DNA / RNA extractionCulturing and DNA isolation(for pure cultures only)

Preparation of sequencing libraries (amplicons or shotgun libraries)

Sequencing on next generation platforms

Clinical(swabs, blood, stool, biopsy, 

etc.)

Environmental(arthropods, swipes, soil, 

liquids, etc.)

PGM / Proton(Life Tech / Ion Torrent)

MiSeq(Illumina)

Page 15: Technical and Operational Assessment of Genomic Sequencing Platforms

14 

Clinical samEnvironmewithout anisolation o

Isolation

For in‐depmixtures atechniqueexpected p

Figure 4: QRNA using

Extractio

The samplsample. Evextractioncommerciainexpensivvortexer a

mples are coental sampleny culturing of potential p

of single

th sequenciand grown ins, using selepathogens. 

F

QIAcube is ag Qiagen kit

on of DNA

e preparatioven though t products (kally availableve platform cnd a mini ce

ollected by tes can be colshould be frpathogens sh

microbial

ng of specifin pure culturctive media 

Figure 3: Var

an inexpensivs. The instru

A and RNA

on process rethere are a vkits) can effice from Qiagecalled QIAcuentrifuge. 

rained medillected by anrozen as soohould be sto

clones 

ic pathogensres. This is acor cell lines

rious types o

ve benchtop ument proces

A (sample

efers to the variety of samciently purifyen and can bube. The kits

ical staff usinny trained peon as possiblored at 2‐8 °C

s, pathogensccomplishedthat are sel

of samples an

platform whsses 12 samp

e prep)

extraction omple types, y DNA and Rbe automates can also be

ng appropriaerson. Sampe. Samples tC.

s first need td with standected based

nd sample co

hich can autoples in one ho

of DNA and Rit is likely th

RNA from aned by use of e used by pe

ate collectioples that willthat require 

to be isolatedard microbid on the sym

ontainers.

 omatically exour.

RNA molecuhat only threy sample. Tha relatively rsonnel, req

on devices. l be sequencculturing an

ed from comological 

mptoms and 

 

xtract DNA o

ules from theee DNA/RNAhe kits are small and quiring only a

ced nd 

plex 

or

e A 

Page 16: Technical and Operational Assessment of Genomic Sequencing Platforms

15 

 Figure 5: Nucleic acid extraction with Qiagen kits can also be manually performed, using a vortexer and a centrifuge.

For extraction of DNA from all clinical samples (except stool), the QIAamp DNA mini kit can be used. For extraction of RNA from all clinical samples except stools, a combination of QIAzol and miRNeasy mini kits can be used. For DNA and RNA extraction from stool and environmental samples, QIAamp DNA stool mini kits can be used. The QIAamp DNA stool mini kits can purify RNA, DNA, or both types of nucleic acids from samples. 

After extraction, the concentration and total amount of extracted DNA and RNA must be determined. The simple, small, and inexpensive Qubit device (available from Life Technologies, formerly Invitrogen) performs this task with sufficient speed and accuracy. Purified DNA should be stored at 2‐8 °C, while RNA samples should be stored at ‐20 °C or ‐80 °C, if available. 

Preparation of sequencing libraries

All NGS platforms require adapter‐tagged DNA fragments as the starting “template” material. Therefore, all DNA molecules must first be converted to sequencing libraries using a library preparation process. Sequencing libraries are DNA molecules containing original DNA from an unknown sample with specific adapter sequences attached to both sides of the molecule. RNA molecules to be sequenced must be converted to cDNA prior to library preparation. 

For amplicon sequencing (the first pipeline in Chapter 1), specific pathogen sequences (signatures) or bacterial 16S genes are amplified using polymerase chain reaction (PCR). Sequencing adapters with barcodes are added during PCR, enabling very rapid library preparation. 

Page 17: Technical and Operational Assessment of Genomic Sequencing Platforms

16 

 Figure 6: A thermocycler is required during the library prep process, whether DNA fragments or amplicons are to be prepared for sequencing.

For shotgun sequencing, where all nucleic acids present in a sample are sequenced, sequencing libraries must be prepared. The first step in this process is fragmentation of all DNA molecules to the size suitable for sequencing. Covaris instruments are best suited for this purpose, as they provide very reproducible results and are easy to use.  

 Figure 7: Covaris M220 instrument fragments DNA molecules as the first step in the library preparation process. This model can process one sample every 2 minutes.

Once the DNA is fragmented, many commercially available kits can be used to perform library preparations. Comparisons carried out at LANL, but not yet published, find NEBNext Ultra kits from New England Biolabs provide the best overall performance. They are easy to use, fully automatable (for high sample numbers), inexpensive, robust and require very small amounts of input sample. They also produce excellent sequencing data across a spectrum of microbial pathogens. There are two types of NEBNext Ultra kits, one for preparation of sequencing libraries from DNA samples and the other one from RNA samples. The RNA library prep kit is identical to the DNA kit, with three additional steps to convert RNA to cDNA. 

Page 18: Technical and Operational Assessment of Genomic Sequencing Platforms

17 

Sequenc

There are the NGS syMiSeq and

MiSeq (Il

MiSeq is a library fragis the crea

The follow

Strength Ful

Seq

As 

A s

bac

Op

Ve

Weaknes A s

Figure 8: I

PGM (Life

The other Genome Mprovide se

cing platfo

currently twystems in ted the LifeTec

lumina)

fully integragments, seqtion of fastq

wing lists assu

hs of MiSeqlly automate

quencing rea

an Illumina 

single sequen

cterial genom

perators requ

ry small foot

sses of MiSsequencing r

Illumina's M

e Technolo

NGS platforMachine (PGequencing da

forms

wo sequencinrms of cost, ch Ion Torren

ated bench‐tuencing by sq files that a

ume the new

q: ed and easy 

agents are p

platform, pr

ncing run pr

mes per run

uire very litt

tprint (2 fee

Seq: run takes at 

MiSeq platfor

ogies)

m that may M). Even thoata in a muc

ng platformsspeed, datant. The two w

top device, asynthesis, anre ready for 

west MiSeq m

to operate

pre‐loaded in

roduces the 

roduces ~ 3.6

 (depends o

le training 

t of the ben

least 24 hou

rm.

be useful foough it has sh shorter am

s that provida output andwill be detai

automaticalnd data procanalysis. 

model and 2

nside a cartr

highest qua

6 Gbps of da

n the genom

ch top) 

urs (though i

or field operasignificant dmount of tim

de significantd physical fooiled below.

ly performincessing. The 

2×150bp seq

idge 

lity NGS dat

ata, sufficien

me size) 

it is fully aut

ations is therawbacks co

me. 

t advantageotprint. The

ng the clonafinal step in

uencing che

ta (lowest se

nt for sequen

tomated) 

 

 Ion Torrentompared to 

s over the rese are the Il

l amplification a sequencin

emistry are u

equencing er

ncing two or

t Personal MiSeq, it ca

est of lumina 

on of ng run 

used. 

rror) 

r more 

Page 19: Technical and Operational Assessment of Genomic Sequencing Platforms

18 

As Figure 9 shows, the PGM is accompanied by several other pieces of equipment and the entire system requires hours of manual work (as opposed to fully automated on MiSeq) for clonal amplification of library fragments, bead purification, primer and polymerase loading, chip loading and initiation of PGM. 

 

 Figure 9: Life Technologies' Ion Torrent PGM system consists of seven required pieces of equipment: Ion One Touch, Ion ES, chip centrifuge, stir plate, water purification system, compressed argon tank, and PGM.

The following lists assume that the 318 chip and 300bp sequencing chemistry are used. 

Strengths of Ion Torrent PGM: Length of the sequencing run is about 13 hours (see text above for explanation) 

One sequencing run can provide sufficient data (~1.8 Gbps) to sequence at least one bacterial genome (depends on the genome size) 

Drawbacks of Ion Torrent PGM: Requires several hours of manual work 

Sequencing reagents are numerous and must be individually handled 

Operators require intensive training 

Utilizes a larger footprint than MiSeq 

Requires a supply of compressed argon gas 

Produces slightly lower quality data (more errors) than MiSeq 

A single sequencing run produces less data than MiSeq 

Besides MiSeq and PGM, two other platforms may be of interest for use in field‐based sequencing laboratories. 

Page 20: Technical and Operational Assessment of Genomic Sequencing Platforms

19 

Ion Proton (Life Technologies) is the larger version of the PGM. The current version of the sequencing chips that the Proton uses have more than ten times higher data output (~10 Gbps) than PGM. It offers shorter run times than the PGM by approximately two hours, due to the introduction of Ion Chef, which automates the process of clonal amplification of library fragments. Life Technologies has already announced their plans for higher throughput sequencing chips to provide more data in the same amount of time. Overall, the Ion Proton promises to deliver the best overall performance of any NGS platform. The cost of a new instrument is about $250,000. 

HiSeq 2500 (Illumina) is a new instrument that has two different run modes. In the rapid mode, the fully automated sequencing run (just like MiSeq) will take 27 hrs and produce 120 Gbps of sequencing data, sufficient to sequence more than 75 bacterial genomes at once. The cost of a new instrument is about $750,000. 

Data storage and transfer and management

Sequencing platforms generate enormous quantities of data. This data must be managed efficiently, processing the raw data into useable data files and storing them for downstream analysis. The Ion Torrent PGM can generate output data files ranging in size from 300MB to 5GB. A MiSeq will typically generate 20GB to 40GB of data per run (HiSeq can generate 3,000GB to 5,000GB of data per run). In order to maintain an archive of the raw and processed data, a file system of ≥50TB may be required. This would allow for archiving of raw data and intermediate analysis results. Depending on project throughput, platform usage, and whether stringent data cleanup is implemented, a more modest sized file system should suffice. If transfer is desired to off‐site locations, connections allowing transfer of gigabytes of data in short timeframes will be required.  

Laboratory layouts, equipment, and space and power requirements

Illumina MiSeq platform

Table 5 and Table 6 list required and optional equipment and bench space needed in a laboratory using MiSeq for sequencing of complex samples and pure cultures. Minimum bench space required is approximately 27 feet, which could be further reduced to 21 feet by placing the refrigerator 1, freezer 1 and incubator under the bench. 

Minimal space requirements may negatively affect the quality of the work performed and compromise the trustworthiness of the data produced, due to potential cross‐contamination of the samples. Therefore, the optional equipment and space are highly recommended. 

   

Page 21: Technical and Operational Assessment of Genomic Sequencing Platforms

20 

Required equipment Function Space, feet* Power, Amps** Refrigerator 1 Sample and reagent storage 2 2 Freezer 1 Sample and reagent storage 2 2 Incubator (shaking) For culturing microorganisms 2 1 Mini centrifuge Sample prep, library prep 1 <1 Vortexer Sample prep, library prep 1 <1 Heat block Sample heating 1 2 Thermocycler PCR amplification 2 7 Covaris M220 DNA fragmentation 2 <1 Qubit DNA and RNA quantification 1 <1 MiSeq Sequencing 3 4 Working bench For performing all work 4 N/A Sink For liquid waste and washing hands 2 N/A Computer and desk Computer work and data keeping 4 N/A Required space and power 27 <22

Table 5: Space and power requirements for MiSeq sequencing. All instruments use standard household outlets ranging from 110-240V.* Required bench-top width. **Based on 110V and peak power.

Suggested equipment Function Space, feet* Power, Amps** Microbiology hood For sterile microbiology work 3 <1 Mini centrifuge Sample prep, library prep 1 <1 Vortexer Sample prep, library prep 1 <1 QIAcube Sample prep 3 6 Refrigerator 2 Post-PCR sample and reagent storage 2 2 Freezer 2 Post-PCR sample and reagent storage 2 2 Post-PCR bench Performing steps before PCR 4 N/A Additional space and power 16 <13 Total space and power 43 <35

Table 6: Space and power recommendations for MiSeq sequencing. Notes same as Table 6.

 Figure 10: Example laboratory layout for MiSeq sequencing, with sufficient laboratory equipment to produce highly reliable data.

Ion Torrent PGM platform

Table 7 and Table 8 list the required and suggested equipment and bench space needed in a laboratory that uses the PGM for sequencing of complex samples and pure cultures. The minimum 

Page 22: Technical and Operational Assessment of Genomic Sequencing Platforms

21 

bench space required is about 23 feet, which could be further reduced to 17 feet by placing the refrigerator 1, freezer 1, and incubator under the bench. Again, minimum space requirements may negatively affect the work quality and compromise the trustworthiness of the data produced, thus optional equipment and space are highly suggested. 

Required equipment Function Space, feet* Power, Amps** Refrigerator 1 Sample and reagent storage 2 2 Freezer 1 Sample and reagent storage 2 2 Incubator (shaking) For culturing microorganisms 2 <1 Mini centrifuge Sample prep, library prep 1 <1 Vortexer Sample prep, library prep 1 <1 Heat block Sample heating 1 2 Thermocycler PCR amplification 2 7 Covaris M220 DNA fragmentation 2 <1 Qubit DNA and RNA quantification 1 <1 Ion One Touch PGM accessory 2 <1 Ion ES PGM accessory 2 <1 Chip centrifuge PGM accessory 1 <1 Stir plate PGM accessory 1 <1 Argon cylinder PGM accessory 1 N/A PGM Sequencing 2 9 Working bench For performing all work 4 N/A Sink For liquid waste and washing hands 2 N/A Computer and desk Computer work and data keeping 4 N/A Required space and power 33 <31

Table 7: Space and power requirements for PGM sequencing. All instruments use standard household outlets ranging from 110-240V.* Required bench-top width. **Based on 110V and peak power.

Suggested equipment Function Space, feet* Power, Amps** Microbiology hood For sterile microbiology work 3 <1 Mini centrifuge Sample prep, library prep 1 <1 Vortexer Sample prep, library prep 1 <1 QIAcube Sample prep 3 6 Refrigerator 2 Post-PCR sample and reagent storage 2 2 Freezer 2 Post-PCR sample and reagent storage 2 2 Post-PCR bench Performing steps before PCR 4 N/A Additional space and power 16 <13 Total space and power 49 >44

Table 8: Space and power recommendations for PGM sequencing. Notes same as Table 8.

 

Page 23: Technical and Operational Assessment of Genomic Sequencing Platforms

22 

 Figure 11: Example laboratory layout for sequencing with the PGM platform.

Personnel requirements

For each laboratory set‐up recommended above, a single trained technician could perform all tasks. However, the sample throughput of such a laboratory would be fairly low and the equipment would not be utilized to its full potential. An additional technician would certainly increase the throughput and maximize equipment use. 

The highest expertise level in the entire process described above is required for isolation and culturing of potential pathogens from a complex sample. This task should probably be performed by a trained technician. All other steps use standard operating procedures that can be learned by a non‐technical person. As described earlier, the MiSeq platform requires much less training and manual work than the PGM. This leads to the possibility that one technician could operate a laboratory with two MiSeq platforms just as easily as one PGM. 

Throughput of a sequencing laboratory

There are many possible sequencing laboratory set‐ups, depending on the needs that the facility must satisfy. acility. 

Sample description Sample count Platform Time to sequence data Time/sample Pure culture 1 MiSeq 48 hrs 48 hrs Pure culture 4 MiSeq 48 hrs 12 hrs Pure culture 12 MiSeq 96 hrs 8 hrs Pure culture 1 PGM 37 hrs 37 hrs Pure culture 4 PGM 50 hrs 12.5 hrs Pure culture 12 PGM 102 hrs 8.5 hrs Mixed sample 1 MiSeq 30 hrs 30 hrs Mixed sample 4 MiSeq 54 hrs 13.5 hrs Mixed sample 12 MiSeq 150 hrs 12.5 hrs Mixed sample 1 PGM 19 hrs 19 hrs Mixed sample 4 PGM 58 hrs 14.5 hrs Mixed sample 12 PGM 162 hrs 13.5 hrs Pure culture 12 HiSeq 51 hrs 4.25 hrs

Page 24: Technical and Operational Assessment of Genomic Sequencing Platforms

23 

Sample description Sample count Platform Time to sequence data Time/sample Pure culture 12 Ion Proton* 37 hrs 3.1 hrs Mixed sample 12 HiSeq 33 hrs 2.75 hrs Mixed sample 12 Ion Proton* 17 hrs 1.4 hrs

Table 90 lists some possible scenarios in terms of instrumentation, number of samples, and timelines and the same data are plotted in Figure 12. From the data, it is clear that the choice of sequencing platforms will depend on the sample throughput requirements for a given facility. Adding another technician is also a way to increase the throughput of a laboratory without any additional equipment. Ultimately, decisions about the number of technicians and the choice of sequencing platforms should be based on the predicted requirements for each facility. 

Sample description Sample count Platform Time to sequence data Time/sample Pure culture 1 MiSeq 48 hrs 48 hrs Pure culture 4 MiSeq 48 hrs 12 hrs Pure culture 12 MiSeq 96 hrs 8 hrs Pure culture 1 PGM 37 hrs 37 hrs Pure culture 4 PGM 50 hrs 12.5 hrs Pure culture 12 PGM 102 hrs 8.5 hrs Mixed sample 1 MiSeq 30 hrs 30 hrs Mixed sample 4 MiSeq 54 hrs 13.5 hrs Mixed sample 12 MiSeq 150 hrs 12.5 hrs Mixed sample 1 PGM 19 hrs 19 hrs Mixed sample 4 PGM 58 hrs 14.5 hrs Mixed sample 12 PGM 162 hrs 13.5 hrs Pure culture 12 HiSeq 51 hrs 4.25 hrs Pure culture 12 Ion Proton* 37 hrs 3.1 hrs Mixed sample 12 HiSeq 33 hrs 2.75 hrs Mixed sample 12 Ion Proton* 17 hrs 1.4 hrs

Table 9: Time required for various tasks in a sequencing lab. These estimates assume that 1. Pure culture is of an average genome length bacterium (~4 Mbps). MiSeq can sequence 4 samples per run, and PGM 2 samples per run. Estimated time includes 18 hrs for culturing. 2. Two mixed samples can be sequenced by MiSeq and one by PGM in one sequencing run. Estimated time includes 6 hours for sample and library preps for up to 12 samples. 3. One laboratory technician is performing all the work. * IonProton process includes a not-yet-available Ion Chef.

Page 25: Technical and Operational Assessment of Genomic Sequencing Platforms

24 

 Figure 12: Time to data for different sequencing scenarios. Data are also shown in Table 10.

Good laboratory practices (GLP)

Independent of the platform of choice and types of applications, all NGS facilities should follow Good Laboratory Practices (GLP). GLP is a set of administrative and laboratory processes that ensure the results obtained can be trusted and shared among equivalent facilities and maximizes the productivity by minimizing failures. GLP consists of proper laboratory set up, implementing a Quality Assurance (QA) plan, thorough training, following standard operating procedures, keeping records of all work performed and performing Quality Control (QC) on every sample. A specific example of QA/QC would be the use of positive and negative controls during daily operations. 

It is important to note that the laboratory layouts depicted in Figures 10 and 11 are the minimalist versions of NGS laboratories. If at all possible, multiple rooms should be utilized to perform sequencing applications under GLP guidelines. For example, a proper set‐up would include a sample receiving and processing room, a pre‐PCR room where small amounts of nucleic acids are handled, followed by post‐PCR room where prepared sequencing libraries handled and sequencing is performed. This unidirectional process would minimize sample cross‐contamination.

0

20

40

60

80

100

120

140

160

180

MiSeq MiSeq MiSeq PGM PGM PGM MiSeq MiSeq MiSeq PGM PGM PGM HiSeq Ion Proton HiSeq Ion Proton

1 4 12 1 4 12 1 4 12 1 4 12 12 12 12 12

Pureculture

Pureculture

Pureculture

Pureculture

Pureculture

Pureculture

Mixedsample

Mixedsample

Mixedsample

Mixedsample

Mixedsample

Mixedsample

Pureculture

Pureculture

Mixedsample

Mixedsample

Time, h

rs

Platform, number of samples, sample type

Total time

Time per sample

Page 26: Technical and Operational Assessment of Genomic Sequencing Platforms

25 

Chapter 3: Comparative Analysis of Performance of Current Sequencing Platforms

This chapter (and Appendix 4) details a direct comparison of various library preparation and sequencing methods for a variety of samples in order to make recommendations regarding the most appropriate chemistries for sequencing in OCONUS settings. 

Technologies Analyzed and Samples Utilized

Platforms examined are those assumed to be flexible and rapid enough for deployment to a OCONUS laboratory. These include the Roche 454 FLX Jr., Illumina MiSeq and Ion Torrent PGM. Each sequencing technology has identified weaknesses for particular types of sequencing applications. These weaknesses are examined in detail here and in Appendix 4. Additionally, for the MiSeq sequencing several library preparations were performed to determine the impact of these preparations on overall sequencing quality. 

It is generally accepted that the greatest impact on quality of sequencing is the average ratio of G+C to A+T (commonly referred to as GC ratio) in a DNA sample. To examine each technology in detail, we chose 3 potential biothreat agents with a varying range of GC ratio. Table 10 lists these organisms and several key characteristics.  

Isolate %GC Size Notes Burkholderia thailandensis 68% 6.71Mb 2 Chromosomes Escherichia coli 50% 5.3Mb Isolate from the Republic of Georgia; 4 Plasmids Bacillus anthracis 36% 5.3Mb Isolated variant of B. anthracis Ames; 1 Plasmid

Table 10: List of bacterial strains used in comparative study.

Sequencing Quality

There are generally four types of sequencing error in current NGS platforms: low quality sequence, substitution errors, InDel errors, and loss of genetic material during preparation. 

Of these error types, sequence data of low quality is the least likely to have a negative impact on analysis. Low quality sequence data can be easily dealt with by trimming low quality bases from the ends of individual sequence reads. 

The next impactful type of error is a substitution miscall, where a nucleotide is incorrectly classified (referred to in literature as single nucleotide polymorphisms, or SNPs). These errors can have minor to intermediate effects on sequence analysis, or assembly of a genome and must be controlled for, but can typically be overcome by additional sequencing.  

Slightly more damaging to analyses are the incorrect addition or subtraction of a nucleotide in the sequence (called InDel errors). InDel errors are more frequent for 454 or IonTorrent data, but due to the known issues with these types of errors, there are protocols and software to minimize errors of this type. InDel errors can have much more severe impacts on the quality of analysis, due to the fact that not only sequence, but order and spacing of sequence data are important for 

Page 27: Technical and Operational Assessment of Genomic Sequencing Platforms

26 

correct analysis. Due to the type of sequencing performed, this type of error is more frequent for Ion Torrent and 454 technologies than for Illumina.  

Of greatest importance for this analysis, the most difficult error to identify is missing genomic sequence. This flaw is due to the inability of preparation and sequencing methods to sequence every part of a genome. The dangers of this error type are; 1) it causes an unrecoverable loss of information from known organisms (all information about the genes within that region is missing and are not analyzed), and 2) it is difficult to identify such regions for a newly sequenced organism. It is generally assumed that the laboratory preparation techniques before sequencing are primarily responsible for this type of error.  

Low Quality Errors

The frequency and impact of low quality bases can be easily determined by quantitatively measuring the number of sequencing reads that are removed from analysis when removing areas of low quality. Table 11 shows the number of original reads and the number of reads remaining after removing poor quality data. While the majority of reads have some proportion of their reads removed due to quality concerns, 454 and Ion Torrent have the highest proportion. In no case, however, are sufficient reads removed to be concerned about the platforms’ ability to generate sufficient information for analysis. 

Bacillus anthracis Escherichia coli Burkholderia thailandensis

Platform + Chemistry

Reads High Quality Reads

Reads High Quality Reads

Reads High Quality Reads

Roche 454* 2.77×105 2.50×105 2.71×105 2.47×105 4.58×105 3.71×105 Ion Torrent PGM 2.20×106 1.98×106 1.58×106 1.43×106 1.33×106 8.75×105 MiSeq TruSeq 7.16×106 7.13×106 N/A N/A 2.03×107 1.97×107 +Betaine 6.48×106 6.46×106 7.17×106 7.07×106 2.13×107 2.08×107 NebNext2 9.24×106 9.08×106 9.08×106 8.99×106 2.50×107 2.41×107 +Betaine 8.57×106 8.51×106 7.45×106 7.36×106 3.24×107 3.14×107

Table 11: Reads and trimming results for all platforms and chemistries.

 

Page 28: Technical and Operational Assessment of Genomic Sequencing Platforms

27 

Substitution and InDel Errors

Error rates for all samples run are shown in Table 1Table 12. Sequencing was performed with all three technologies (MiSeq, Ion Torrent, 454) for 3 pathogens, and the sequencing results were compared to the finished genomes. Each technology has an individual error profile; overall 454 and Ion Torrent have a significantly higher percentage of every type of error than Illumina, particularly those resulting in InDel errors. Additionally, the G/C ratio of the organism appears to increase the substitution error for both Ion Torrent and Illumina drastically. 

Technology Sample Insertion Percentage Deletion Percentage Substitution Percentage MiSeq B. anthracis 0.1% 0.1% 2.8%

E. coli 0.0% 0.1% 3.6% B. thailandensis 0.1% 0.1% 3.9%

Ion Torrent B. anthracis 8.5% 10.2% 9.7% E. coli 6.1% 10.6% 9.0% B. thailandensis 7.8% 9.2% 12.7%

454 B. anthracis 3.3% 4.4% 2.7% E. coli 2.3% 3.0% 1.9% B. thailandensis 2.5% 3.1% 25.0%

Table 12: Sequencing error rates for all technologies across all platforms.

Genome Coverage

All platforms are capable of sequencing 99+% of every genome tested, with MiSeq generating the highest number of bases covered, as well as the most even coverage of the finished target organism genome ( 

Platform  Reads/Run (Ave Length)

Ave. Genome Coverage (%)

Fold Coverage (Min-Max)

Multiplex (max samples/run)

MiSeq ~20 Million (100Bp) 100% 40-800× 2-4** PGM (316 Chip) 1-2 Million (~200Bp) 99.99% 10-100× 1 454 FLX* 100,000 (400Bp) < 99% 5-45× 1

Table 13). Figure 13 is a box and whisker plot illustrating the evenness of coverage of each technology, and shows that for each organism, MiSeq generated the most even coverage, with Ion Torrent and 454 generating different levels of coverage for varying genomes. 

Platform Reads/Run (Ave Length)

Ave. Genome Coverage (%)

Fold Coverage (Min-Max)

Multiplex (max samples/run)

MiSeq ~20 Million (100Bp) 100% 40-800× 2-4** PGM (316 Chip) 1-2 Million (~200Bp) 99.99% 10-100× 1 454 FLX* 100,000 (400Bp) < 99% 5-45× 1

Table 13: Sample table for platform analysis. FLX is used in lieu of the GS Jr., previous studies have shown highly similar behavior between the two. Genome size coupled with desired fold coverage drives the calculations of how many samples may be multiplexed per run.

Page 29: Technical and Operational Assessment of Genomic Sequencing Platforms

28 

 Figure 13: Comparisons of evenness of coverage between platforms. Evenness of coverage across the genome ranges from 1.0 (all regions of the target genome are covered by the same number of reads) to < 0.20 (The variation of coverage across the genome varys by > 5-fold between regions). Illumina MiSeq performs better for all tested organisms.

Assembly of Reads

To illustrate the sequencers ability to characterize a pathogen of unknown origin, sequence data from each platform was assembled and the resulting assemblies analyzed. Due to the relatively low genome coverage of Ion Torrent and 454 data in these samples, overall assemblies produced much longer assemblies for Illumina data than for either of the other two technologies. However, assembled reads from all technologies maintained a similar level of coverage of the genome (>85%). Analysis of assembled reads does indicate significantly more substitution errors for all platforms than the reads from the same platforms. This indicates that while assembly is necessary for improved ability to detect novel genes or acquired genes not present in a reference genome, there are likely more errors in the assembled sequence than in the reads. For further discussion of assembly for analysis, please see Appendix 3.  

Sequencing Mixed Samples

From analysis of multiple previously sequenced mixed community samples, sequencing of mixed samples (such as blood, stool samples, or environmental samples) is possible, but requires relatively high concentrations of the pathogen(s) for detection. An exercise performed using environmental air filter samples with a spiked control of Francisella tularensis at a concentration equal to approximately 3% of the sample genetic material sequenced was able to identify the presence of F. tularensis but was unable to characterize the pathogen to strain level. While 

Page 30: Technical and Operational Assessment of Genomic Sequencing Platforms

29 

successful, this scenario would be considered a high limit of detection when compared to PCR based assays and multiple efforts are underway to produce improved samples for scenarios. 

For identification of human pathogens from blood samples, the expected pathogen load is very low. A single sample may reasonably contain only tens or hundreds of pathogen cells mixed with several million human cells. In such cases the required sensitivity is well below 3% of the sample using current DNA extraction techniques and sequencing technologies. Two main areas of research to improve detection limits are (1) improved DNA extraction protocols to potentially remove DNA from non‐target sources and (2) improved sequencing throughput. Currently, a study investigating the preferred DNA extraction protocol from human derived samples, including blood, fecal material, and sputum, is underway. Protocols for sequencing human derived samples to detect potential bio‐threat organisms are expected to reach a maturity stage sufficient for diagnostic work in the near future. 

Platform HiSeq HiSeq MiSeq MiSeq Library Prep. TruSeq + Betaine NebNext2 +Betaine TruSeq +Betaine NebNext2 +Betaine

B. t

hail

ande

nsis

Reads Generated (Million)

26.4 25.4 27.6 24.6 20.3 21.3 25 32.4

% Genome Coverage

99.99% 100% 100% 100% 100% 100% 100% 100%

Fold Coverage ±StDev*

324±112 310±82 278±76 306±84 388±128 401±90 453±98 629±143

E. c

oli

Reads Generated (Million)

18.5 26.7 25 22.9 N/A 7.2 9 7.4

% Genome Coverage

100% 100% 100% 100% N/A 100% 100% 100%

Fold Coverage ±StDev*

240±32 337±53 345±40 321±38 N/A 158±28 223.17±28 182.59±30

B. a

nthr

acis

Reads Generated (Million)

47.8 17.1 33.7 3.2 7.1 6.4 9.2 8.8

% Genome Coverage

100% 100% 100% 100% 100% 100% 100% 100%

Fold Coverage ±StDev*

204±82 569±205 874±121 39±9 105±41 167±62 192±30 204±31

Table 14: Sample table of results by library preparation method. *Coverage and standard deviation values for Burkholderia thailandensis are presented as an average of both chromosomes.

MiSeq Sequencing Kits and Betaine Treatment

As discussed in the appendix, two MiSeq sequencing kits and two MiSeq treatment methods were evaluated to determine if they had any effect on the genome sequencing coverage and sequencing quality in low GC regions. The methods and analysis are covered in depth in the appendix. 

In brief, the NebNext2 sequencing kit demonstrates lower variability of genome sequence coverage and the Betaine treatment method appears to have an improvement on both genome coverage and evenness of coverage for low GC ratio genomes. 

Page 31: Technical and Operational Assessment of Genomic Sequencing Platforms

30 

Summary

After examination of multiple NGS platforms’ ability to reliably, accurately and evenly sequence the genomes of a range of sample types, the Illumina MiSeq seems to generate more complete and even coverage of genomes than either the Ion Torrent or 454 platforms. Illumina MiSeq has the lowest rate of sequencing errors, followed by 454 and Ion Torrent technologies. Using current technologies and DNA extraction protocols, sequencing of mixed community samples (e.g. swab or blood sample, or soil or air filter sample) requires very high coverage to reliably characterize, again indicating that Illumina MiSeq has a significant advantage. For samples derived from a human source, the signal‐to‐noise ratio for detection of a pathogen is very low, making detection via sequencing potentially unreliable. However, methods for DNA extraction and preparation of human‐derived samples are currently being developed to reduce noise.  

 

Page 32: Technical and Operational Assessment of Genomic Sequencing Platforms

31 

Chapter 4: Survey of Sequencing Centers & Platform Vendors

In an effort to understand the diversity of sequencing goals, methods, and technological implementations, this survey includes many of the world’s leading sequencing centers and two major platform vendors with a total of 14 responses from 13 institutions. Generally speaking, the types of sequencing stayed in line with the goals of a particular sequencing group. Notably 90% of the sequencing centers utilize the Illumina MiSeq or HiSeq platforms regularly, respondents processing clinical samples have greatly relaxed incoming QC requirements for samples and few centers still utilize the Roche 454 platform regularly. Information gleaned from the vendor survey generally echoes other publically released information on the platforms.  

Sequencing centers

Introduction

This survey was conducted to elucidate the methods applied for sequencing and analysis of data generated by NGS platforms, under the direction of Joint Program Manager ‐ Medical Countermeasure Systems (JPM‐MCS, formerly Transformational Medical Technologies, JPM‐TMT). The purpose of the survey was to understand if the methods and operating procedures used by the Genome Science teams at LANL were in agreement with those at other major sequencing centers, academia and national laboratories. One individual conducted the surveys with all respondents and carried out the analysis of the results. 

The basis of the questionnaire was outlined by JPM‐MCS in conjunction with LANL staff. Surveys were conducted by providing the questionnaires in advance via email (October 2012, see Error! Reference source not found. for example survey), then discussing answers via phone when the respondents were available for phone interviews. Two respondents were unable to speak by phone but provided written responses; survey answers were collected between October and November 2012. Most of the survey respondents are located in the USA (four OCONUS centers were contacted, however only one responded,Error! Reference source not found.). All questions were asked of all respondents (n=12). 

 Figure 14: Location of survey respondents (created using pinmaps.net)

Page 33: Technical and Operational Assessment of Genomic Sequencing Platforms

32 

The sample size for this survey was small (n=12) due both to the small group of potential respondents as well as the response rate (~65%). All efforts were made to ensure that each participant understood the purpose of the survey, and for their responses to be accurately recorded. Survey respondents included both researchers and project managers from each of the institutions contacted (all legal adults, list of institutions in Table 15). 

Institution Type Broad Institute Large sequencing center, research laboratory Center for Disease Control and Prevention – Influenza Government, research laboratory Center for Disease Control and Prevention – Rapid Response Government, rapid response Center for Infection and Immunity Academic, rapid response, research laboratory Edgewood Chemical Biological Center Government, research laboratory J. Craig Venter Institute Large sequencing center, research laboratory Joint Genome Institute Large sequencing center, research laboratory Los Alamos National Laboratory Moderate sequencing center, research laboratory National Center for Genome Resources Moderate sequencing center, research laboratory Navy Medical Research Center Government, research laboratory Sanger Institute Large sequencing center, research laboratory Translational Genomics Institute Academic, research laboratory

Table 15: Sequencing centers participating in the survey. The low response count may indicate that the summarized responses are skewed; however the respondents did cover the breadth of possible interviewees.

Sample handling

Generally speaking, respondents handle samples in a similar fashion to each other with most of the differences being directly linked to the goal of the individual centers. Most centers were able to process any nucleic acid but starting viable samples varied as did the prevalence of working with any particular source type. Similarly nearly all centers worked with both DNA and RNA, and all have very similar initial processing steps upon sample arrival. 

A comparison of sample tracking systems yielded an interesting result. Only four of the twelve centers utilized a commercially available LIMS (Laboratory Information Management System, a database designed to integrate with standard laboratory processes to enable more complete sample tracking). While seven of the centers continued to use in‐house developed systems and the last still utilized spreadsheets to document the progression of a sample through pipelines. 

Sequencing process

This set of questions looks at the sequencing platforms employed and how they’re utilized. Most notable is the prevalence of Illumina technologies throughout those surveyed (Figure 15) and many centers maintained more than one of the available Illumina platforms. About two‐thirds of the centers routinely make adjustments to the manufacturer protocols, requiring either an in‐house development team or a trusted team outside of that organization. Also common (>60%) is the use of a robotic system to generate the Illumina libraries, this allows for both increased accuracy (closeness of results) and reduced labor costs. 

Page 34: Technical and Operational Assessment of Genomic Sequencing Platforms

33 

Figure 15:

Staff tra

A single quhandle samregarding experienceused the straining pr

Sequenc

Overall thecenter expall stages owith the ethat centenotable simgroups. 

Platform

Introduc

This surveysubsequenfrom the pshould perReferenceenthusiastIon Torrenpromised arespond dwebsite orcontact wi

0%

25%

50%

75%

100%

Prevalence

aining

uestion regample preparthe importae, personal came individrograms, all 

cing Cente

e responses pressed an inof processinxceptions beer’s goals (sumilarity was 

m Vendors

ction

y was also cont outline, atperspective orform now ae source not tic respondent and IonProa response birectly to ther news reporith all respon

I

of Illumina s

rding the levation througnce not onlycharacteristiuals for bothincoming sta

er Survey

to the surventerest in eng. Generallyeing either bch as procesthe implem

s

onducted tot the directioof the vendoand in the nefound.), hownt providingoton. Roche but did not pe survey, if arts, it was inndents and c

92%

Illumina

sequencing p

vel of formagh sequenciny of college lics and platfh wet‐lab anaff held colle

Summary

ey were quitnsuring that y the processbased on pressing speed 

mentation of 

o answer queon of JPM‐Mors providingear future. Cwever respog full writtenresponded provide any.an answer cocluded. As wcarried out t

platforms.

l education ng runs (no blevel degreeorm specificnd bioinformege level deg

y

te positive ansamples weses and metheference witand incominIllumina seq

estions brouMCS. The purg the sequenontact was aonse were sln answers aslate but just In order toould be easilwith the sequthe analysis 

58%

PacBio RS

for an incombioinformates but also ofc training. Inmatics work agrees. 

nd providedre handled ahods were sth little impang sample Qquencing pla

ught up in thrpose of the ncing platforattempted wow and fews well as a tet in time to brepresent thly gleaned fruencing cenof the result

S

ming laboratics) led to a f general lab short no ceand, with the

d valuable feand tracked similar betweact or logicalQC stringencyatforms acro

e Statementsurvey was rms, how thewith many v. LifeTech welecom to disbe included,hose vendorrom the manter survey, Sts.

58%

Roche

tory technicidiscussion boratory enter interviee exception 

edback. Eacproperly thoeen locationl ones basedy). The mostoss the varied

t of Work anto understae equipmenendors (Erro

was the mostscuss for bot however Illrs that did nonufacturer’sS Johnson m

%

e 454 

ian to 

ewed of 

h ough ns, d on t d 

nd and, t or!  th the umina ot s made 

 

Page 35: Technical and Operational Assessment of Genomic Sequencing Platforms

34 

Vendor Platform LifeTech Ion Torrent & IonProton Illumina MiSeq & HiSeq 2000 Roche 454 Jr & 454 FLX+

Table 16: NGS platforms included in vendor survey.

General questions

Notably different from the initial emergence of NGS technologies, the shortest maximal read length from a major vendor is now 100bp long (early platforms were known for 20‐30bp reads). Interestingly, there is a strong correlation between increased read length and decreased read count (Figure 16). 

 Figure 16: Comparison of read length to read count. *Illumina HiSeq is considered on a per lane basis.

Protocols and future directions

Both short and long read protocols are available for the three platform chemistries, with a vendor available kit for most combinations. LifeTech relies heavily on its online user community to develop and share new protocols, while Illumina and other commercial vendors are continually producing revised library preparation kits for faster preparation with lower nucleic acid inputs. 

Library preparation and sequencing runs

Standard library preparation, utilizing a vendor provided reagent set and instructions, should take between two and six hours to complete. Automated library preparation is available for all three platform types, although only LifeTech offers such a system themselves (third‐party vendors offer automation for the Illumina and Roche platforms).  

Steps required between the library preparations and sequencing runs take two hours to 1½ days to complete, depending on platform, and so can substantially increase the overall time to generate usable data. The one exception is the Illumina MiSeq platform, which accounts for these intermediate steps in the sequencing run time. 

Sequencing run times also vary greatly between platforms and the specifications of the runs on each platform. The most rapid sequencing runs take three hours on the Ion Torrent, followed 

y = 2E+13e-0.047x

R² = 0.8363

1.E+04

1.E+06

1.E+08

1.E+10

1.E+12

100 150 200 250 300 350 400 450

Cu

rren

t Exp

ecte

d R

ead

s P

er F

ull

Ru

n*

Common Single Ended Read Length

Page 36: Technical and Operational Assessment of Genomic Sequencing Platforms

35 

closely by a short read (50bp) run on the MiSeq requiring 4 hours. The longest run times are found with the HiSeq, with a 2×100 run taking 10 days. 

Vendor estimated training requirements for all steps is less than what discussion with sequencing centers indicate. The vendors suggest that approximately two days instruction (from DNA to data) is all that is required for experienced laboratory workers. As indicated before, this training is only to generate the data, not to analyze it.  

Data handling requirements

As sequencing platforms generate larger amounts of data, data handling has become a major issue in genomics [7‐9]. These challenges are being met with larger computational power and more efficient data transfer and analysis software. This section queried the vendors as to how such challenges have been addressed with respect to their platforms.  

All vendors responding suggested that the effort to transfer data from a sequencer to a local system where analysis could take place would be minimal. Experience in the LANL Genome Sequencing team suggests otherwise, although once the informatics networks are in place transfers can and do occur smoothly and without manual inputs. 

With data outputs from a single sequencing run ranging from 540MB to 300GB, it’s not surprising that the effort in analysis varies as well. For the LifeTech systems no additional hardware is required, however running a Roche platform likely requires the purchase of additional computational hardware. Experience at LANL indicates that substantial computational hardware is required both to store and analyze the large datasets generated by the HiSeq instrument. 

Costs

Sequencer costs vary widely, but in general a bench‐top system (Ion Torrent, MiSeq or 454 Jr.) costs less than $150,000 for the initial purchase (not including reagents required to run the system) and larger system, such as the HiSeq costing $690,000. Additional costs indicated by the vendors include only service contracts to maintain the instruments over time. 

Platform Vendor Survey Summary

The vendor survey is not meant to be the final descriptor of any platform, rather to summarize how the manufacturers expect the sequencing equipment to perform. Much of the information can be found publically or through various online searches, but there is value to validating it with the vendors themselves and compiling it together. 

By trying to compare metrics across all platforms (read lengths ranging from 2×100 to 1×1000 and read counts ranging from one hundred thousand to three trillion reads per run) tends to mask the inherent differences in those platforms. Each project or goal will likely have a different data type that is most appropriate and so general aim for most groups investing in such a platform is to find one that best meets most if not all of their needs.   

Page 37: Technical and Operational Assessment of Genomic Sequencing Platforms

36 

Section 2: Operational Assessment

Demonstrated and Expected Contribution of NGS Technology toward Fulfilling OCONUS Mission

Culture- free characterization of samples

Description

OCONUS laboratories utilizing culture‐free rapid PCR‐based assays are limited to detecting known signatures based on reference pathogens. Although NGS technology is more costly and complex than PCR‐based assays, NGS derived analysis can provide more information regarding the nature of pathogen threats and is less prone to false negatives due to PCR signature erosion or the lack of a signature. 

Requirements

NGS methodology can be added to enhance existing rapid PCR based assays. This requires the training described in Section 1 for DNA extraction, library preparation, and sequencing protocols. Implementation also requires selection and deployment of one or more analysis pipelines to OCONUS laboratories, along with training for pipeline utilization and result interpretation. In depth analysis, beyond automated pipeline analysis, may be performed by offsite support personnel at CONUS (DoD or DOE) laboratories as a reach‐back support mechanism. This requires data transfer or continuous connectivity between OCONUS laboratories and support personnel. 

Challenges

Sequencing of mixed samples (blood, sputum, swabs, etc.) currently requires significant sequencing capacity. There are limitations to the amount of sequencing possible on deployable sequencing machines, highlighting the need for improved host removal techniques. Development of an easily applied treatment methodology to rapidly remove host DNA (e.g. human blood samples would need human DNA removed from the sample prior to sequencing) will aid the usability of generated data. Multiple efforts exist to support this growing need, but none currently at or above TRL 5. 

Future Applications

As sequencing capability increases, so will increased and more detailed monitoring. Furthermore, improved future technology releases (decreased cost/base and procedure simplification) will allow additional laboratories to perform the sequencing and analysis, thus providing broader surveillance capacity. 

Page 38: Technical and Operational Assessment of Genomic Sequencing Platforms

37 

Rapid characterization of isolated pathogens

Description

An alternative use of on‐site sequencing capacity for OCONUS laboratories is rapid sequencing of isolated pathogens. Current methodology for field isolated pathogens typically requires shipment of either cultures or extracted DNA to CONUS laboratories for sequencing and analysis. Deployment of sequencing capacity to OCONUS sites allows OCONUS laboratories to sequence organisms within country, improving turnaround time and avoiding biosecurity and political barriers.  

Requirements

Nucleic acid extraction from cultured isolates typically requires greater safety training than mixed samples and (depending on regulations) may require biosafety level 2 (BSL‐2) or above training, equipment and facilities. Personnel tasked with extraction must also be trained in quality control and methods to verify samples are non‐infectious. All subsequent procedures mirror sequencing requirements for mixed samples, including similar materiel and personnel. In depth analysis, beyond pipeline analysis, would be performed by support personnel at DoD or DOE CONUS laboratories as a reach‐back support mechanism. Such reach‐back support requires data transfer or continuous connectivity between OCONUS and CONUS laboratories and support personnel. 

Challenges

Biosafety and biosecurity are paramount concerns with cultured potential pathogens. Additionally, on‐site analysis will be limited to automated or potentially automated computational analyses, including limited searches against previously identified pathogens or antibiotic resistance genes. More detailed analyses (e.g. genome assembly, annotation of novel pathogens) require high levels of expertise, such as those available at CONUS DoD and DOE facilities.  

Future Applications

Improvements in sequencing, assembly and analysis protocols are expected to improve the quality of analysis possible by OCONUS laboratories over time with decreasing need for reach‐back support. Increased sequencing capabilities would allow sequencing of additional strains, increasing capacity and improving outcomes during outbreak scenarios. 

Current Next Generation Sequencing Capacity

Current CONUS DoD NGS capabilities reside largely at three facilities: U.S. Army Edgewood Chemical Biological Center (ECBC), Naval Medical Research Center (NMRC) and USAMRIID’s Center for Genome Sciences (CGS). Each laboratory is home to both highly educated and capable staff along with modern sequencing equipment, including at least one Illumina sequencing platform per locale. Potential sample throughput is likely on the tens to hundreds per month range and could be improved with the addition of automated robotic systems to speed the library preparation 

Page 39: Technical and Operational Assessment of Genomic Sequencing Platforms

38 

process. All three employ not only highly trained bench staff but also scientists well versed in bioinformatics analyses and scientific context for the potential data applications. Each of the three main laboratories is capable of sequencing and assembling high quality draft microbial genomes and transcriptomes. The throughput and expertise make metagenomic sequencing and analysis also within their capabilities. The laboratory at ECBC is most suited to bacterial processing while those at NMRC and CGS have greater resources focused on viral samples, however all three labs either house or are associated with BSL‐3 facilities and so are capable of processing all sample types discussed in this document. 

Additional DoD CONUS laboratory facilities include the partner laboratories, many of which are also well staffed and equipped to handle low to moderate sample throughput. 

Requirements for Deployment of NGS Technology to OCONUS laboratories

Physical Requirements

As described in Section 1, the equipment required for nucleic acid extraction, library preparation, and sequencing can be placed in a single 10’×25’ room. Requirements for such ancillary materials as gas cylinders or high quality water are dependent on the sequencing system selected. All NGS platforms require, at a minimum this amount of space and uninterrupted power for the duration of a sequencing run (also dependent on sequencing platform). Additional recommendations would include UV lights, cleaning supplies and other materials to reduce the possibility of cross‐contamination between samples during sequencing.  

Computers capable of storing the produced data (~2 GB per sequencing run) and performing analyses would be required for such an OCONUS NGS establishment. To enable reach‐back support, a universal system must be deployed both to the OCONUS laboratories and their partnering CONUS facilities.  

For effective bioinformatic analysis, particularly across multiple locations, protocol standardization and incorporation of internal and external sequencing standards (use of synthesized DNA both as a portion of each sequencing event and as an individual sequencing event for standardization) must be developed and implemented at all participating laboratories. 

Personnel

Effective OCONUS sequencing function must include training of personnel in nucleic acid extraction (including Good Laboratory Practices to reduce potential contamination events), library preparation and sequencing protocols. Additional training would be required to analyze the results of sequencing events. Reduction of machine “down time” may be reduced by the ability of on‐site staff to perform minor equipment repairs. 

Page 40: Technical and Operational Assessment of Genomic Sequencing Platforms

39 

Conclusion

Globalization has and will continue to increase the emergence of pathogens not previously seen or facilitate spread of known pathogens. This is due to the global trade, rapid movement of people, closer interactions with domestic and wild animals, etc. DoD OCONUS diagnostic and surveillance laboratories relying on traditional detection methods have a limited ability to detect emerging pathogens. The NGS technologies offer a very powerful tool for detection and characterization of pathogens, known or unknown, in many sample types. The most recent NGS platforms, described in detail in this report, are now reasonably priced and require a relatively small footprint. Most importantly, they have the potential to generate highly detailed information about pathogens in a cost‐efficient and timely manner. Implementation of NGS technologies in DoD OCONUS labs will enable more rapid and accurate detection and response to outbreaks.   

Page 41: Technical and Operational Assessment of Genomic Sequencing Platforms

40 

Appendices

Appendix 1: Glossary

Abbreviation Description Agarose Gelling agent, extracted from marine algae. Works similarly to gelatin but with greater rigidity

at room temperature Alignment tools Software that helps align sequences to each other by lining up the individual bases** Annotation A process that attaches biological information to sequence data. This consists of two steps: (1)

features of interest (genes) are identified (feature prediction), and (2) gene function and taxonomy profiling assigned (functional annotation).

Ave Average determined by mean Barcode Also referred to as "index". A short DNA sequence that uniquely distinguishes one sample from

another and enable multiplexing. BCM Baylor College of Medicine BioAnalyzer Commercially available system that utilizes microfluidic chips to determine the concentration

and molecular weight (a.k.a. size) of DNA and RNA BLAST Basic Local Alignment Search Tool (BLAST) an easy to use but computationally expensive way

to locate regions of local similarity between two sequences. CDC US Center for Disease Control and Prevention cDNA Complementary DNA, generated through reverse-transcription of RNA CDS CoDing Sequences, portion of DNA that codes for a protein. Will have both a start and stop

codon (see below). Chaotropic Substance, generally a salt, that denatures or breaks down macromolecules such as proteins,

DNA and RNA Chimeric Being made from two entities, in genomics this refers to a sequence that is partially from one

organism and partially from another CII Center for Infection and Immunity at Columbia University Codon A series of three nucleotides (bases of DNA) that code for an amino acid (building blocks of

proteins) Commensal A symbiotic relationship in which one member benefits and the other is unaffected Contig Derived from the word contiguous, it is a set of overlapping DNA reads or segments that

represent a consensus region of DNA sequence. CONUS Contiguous United States CU Columbia University De novo assembly Assembling sequencing reads together without the aid of a reference DNA DeoxyriboNucleic Acid, genomic code for all non-viral organisms DoD Department of Defense DTRA Defense Threat Reduction Agency ECBC Edgewood Chemical Biological Center Epigenetics Study of functional changes (gene expression or phenotype) that are heritable but not due to

changes in DNA sequence (such as DNA methylation or modifications in histones) Fluorescence Light emission by a substance after it has absorbed light or radiation. Fluorometric Fluorescence spectroscopy, also known as fluorometry or spectrofluorometry, is a type of

electromagnetic spectroscopy which analyzes fluorescence from a sample. Fragmentation Physical shearing of large DNA into smaller fragments, generally required prior to sequencing

library preparation. Gene annotations Identification of gene locations and determining what those genes do. HIPPA Health Insurance Portability and Accountability Act of 1996, requires high levels of documentation

and explanation from health care providers and insurance companies Homology A similarity in characteristic (such as gene or genome sequence) due to shared ancestry ID Identification InDel Insertion/Deletion mutation, where a single bases is added or removed from the genome JCVI J. Craig Venter Institute

Page 42: Technical and Operational Assessment of Genomic Sequencing Platforms

41 

Abbreviation Description JGI Joint Genome Institute LANL Los Alamos National Laboratory Metagenome Sequencing and analysis of all organisms in a mixed sample, may refer to environmental or

clinical samples Microbial clones Microbes (bacterial, archaea, yeasts and many other fungi) grow asexually, so a single cell

placed under growth conditions should grow into a colony of clones, cells that are genetically identical.

Microbiology hood

Also referred to as a laminar flow hood. This is a large desk sized item, connected to the building’s HVAC system and equipped with HEPA filters to provide a sterile workspace for microbiological work.

Microbiome A microbiome includes all microbes (both genomes and interactions) in an environment. Most often used in terms of the “Human Microbiome Project”, which looked at all microbes from various parts of the human body?

Multiplex Multiple reactions occurring simultaneously in a single vessel (see singleplex for comparison) NAU Northern Arizona University NCBI National Center for Biotechnology Information NCGR National Center for Genome Resources NGS Next Generation Sequencing, essentially all platforms of genomic sequencing described here are

considered NGS NMRC Navy Medical Research Center OCONUS Outside the Contiguous United States OTU Operational Taxonomic Unit, Used to define the smallest level of taxonomy for an organism

(particular isolate), often prior to assigning a strain designation Paired-end sequencing

A sequencing method in which each DNA fragment is sequenced from both ends.

PCR Polymerase Chain Reaction PGM Personal Genome Machine, commercially available sequencing platform from LifeTech Putative Expected to be but not confirmed QC Quality Control, used in reference to sample, library or data quality qPCR Quantitative PCR, a process that uses fluorescent detectors to monitor the amount of DNA in a

PCR reaction over time; often incorporated into sequencing library QC processes Quasi-species Viruses employ an error prone replication system so (unlike bacteria) when they grow within a

host not all individuals are clones of each other Rarefaction curves A graphical plot of the number of species (or OTU) as a function of the number of samples Read mapping Alignment of sequencing reads to reference genomes Reference-based assembly

Assembly of sequencing reads using a reference genome as a guide for placement.

RNA RiboNucleic Acid, cellular messaging and genomic code for some viruses rRNA Ribosomal RNA, present in all known cells. Often used for high- to mid-level identification RT-PCR Reverse Transcriptase PCR Shotgun sequencing

Random sequencing of a sample. Analogous to the rapidly expanding, quasi-random firing pattern of a shotgun.

SI Wellcome Trust Sanger Institute Signature Signatures are nucleotide sequences that can be used to detect the presence of an organism and

to distinguish that organism from all others Singleplex A single reaction occurring in a single vessel (see multiplex for comparison) StdDev Standard Deviation TGen Translational Genomics Research Institute Thermalcycler Laboratory apparatus used to quickly cycle through temperatures, aiding in amplification

reactions (see PCR) TRL Technical Readiness Level USAMRIID United States Army Medical Research Institute for Infectious Diseases Virulence factors Genes expressed by pathogens that enable (1) colonization of a host, (2) immune-evasion, (3)

immune-suppression, or (4) entry into/exit from cells [only with intracellular pathogens]. Often

Page 43: Technical and Operational Assessment of Genomic Sequencing Platforms

42 

Abbreviation Description includes traits such as antibiotic resistance.

Vortex(er) Laboratory apparatus used for mixing by shaking, common and inexpensive equipment. WashU Genome Institute at Washington University α-diversity Originally defined by R.H. Whitaker in the study of ecology, refers either to (1) the diversity of a

species in a single unit or subunit or (2) the average [mean] species diversity in a set of units or subunits

Table 17: List of abbreviations and non-standard terms used in text.

Page 44: Technical and Operational Assessment of Genomic Sequencing Platforms

43 

Appendix 2: Analysis Pipelines

Application of NGS to diagnostic and analysis of pathogens is a relatively young field, but several pipelines for analysis of NGS data have been proposed, such as Mothur, Qiime, MG‐RAST, IMG‐M‐ER, CloVR, SmashCommunity, Virome, and Metamos, each with different applications, data requirements, and types of actionable information that can be generated. This section discusses each of these pipelines, both their benefits and drawbacks.  

Method Description Pros Cons Computational Requirements

Am

pli

con

Seq

uen

ce

An

alys

is

rRNA amplicon sequencing

Amplification of sample with universal rRNA primers and sequencing of amplicons. Amount of information depends on the primers used

High sensitivity Can have high specificity at species level Can identify novel bacterial, archaeal, and fungal species

Specificity and classification depend on the choice of primers/amplicons Cannot detect virus and rare community members due to lower coverage

Classification software & rRNA DBs

Pathogen ID amplicon sequencing

Amplification of sample with specific primers and sequencing of amplicons. Read mapping and rapid ID and characterization. Amount of information depends on primers used

High sensitivity Can have high specificity at strain level Fastest method

Specificity and classification depend on the choice of primers/amplicons Data cannot be used in other analysis pipelines Minimal characterization

Homology search software & pathogen ID DBs Low computational requirements

Isol

ate

Gen

ome

Seq

uen

ce A

nal

ysis

Isolate genome sequencing (read based analysis)

ID/characterization from databases of known pathogens Potential ID of antibiotic resistance/virulence factors

Highly discriminatory Rapid, specific pathogen ID Virulence/Antibiotic resistance gene ID

Characterization may have false negatives for virulence factors/antibiotic resistance Requires isolation

Low computational requirements Pathogen genome Databases Read mapping software

Isolate genome sequencing (assembly based analysis)

Assembly of reads, ID from contigs Annotation of contigs Analysis of annotated contigs for characterization

Highly discriminatory Specific pathogen ID Virulence

Requires additional computational power Slightly slower (time diff?) Annotation is slow

Medium computational requirements (~16+ GB RAM minimum for assembly (?)) Assembly software Annotation software

Met

agen

ome

Seq

uen

ce

An

alys

is

Mixed sample based pathogen ID & characterization (read based)

Map reads to pathogen DB, ID species present in sample Map reads to virulence/antibiotic resistance DB, ID virulence factors/AB resistance

Rapid Analysis Capable of ID of difficult to isolate pathogens No requirements for culture

Reduced sensitivity (false negatives for ID and virulence factors)

Low computational Requirements Pathogen genome DB Read mapping software

Mixed sample based pathogenID & characterization (assembly based)

Assemble all reads from sample ID potential pathogens from assembled contigs Annotate assembled contigs Characterize contigs based on annotations

Accurate for abundant pathogens Increased potential to ID pathogen/virulence factors (for abundant pathogens)

High computational requirements Difficult to interpret

High computational requirements Metagenome assembly pipeline Metagenome annotation pipeline

Table 18: Analysis methods or "pipelines" available.

Page 45: Technical and Operational Assessment of Genomic Sequencing Platforms

44 

Amplico

rRNA am

Methodo

Amplicon spolymerasampliconssequencedpower to dsmall subuare ideallyanalytical tmicrobes cbased (BLAin mixed srelationshwith existinovo phylophylogenyisolation o

Figure 17:

Technica

The analysExpected iof PCR am

on Sequen

mplicon se

ology

sequencing se chain reac can be sequd in a single detect rare vunit (SSU) rRy suited for vtechniques, can be greatAST) approacamples, withips among Dng phylogenogenic analyy inference fror within the

Work flow o

al Conside

sis pipeline fnputs are eiplicons usin

cing

equencing

involves thection (PCR) puenced by mIllumina lanevariants withNA moleculevariance anasuch as pathtly aided by cches. These h identificatDNA sequencny‐based refysis, using torom aligned  context of Q

of rRNA amp

rations: W

for these amither fewer lg universal d

Da

Charaappro

g

e analysis of products. Asmultiplex seqe, this high‐th detection le (approximlysis, while shogen ID (orcharacter‐baanalyses allion to the geces can also ference dataools such as Nsequences)QIIME, Moth

plicon sequen

hich seque

mplicons will ong reads (Rdegenerate 

R

ata QC (Denois

acter based aches (NBC)

Taxono

Pathogen

genetic vari each amplicquencing plathroughput imits of ≤0.5ately 40% osamples withr signature) ased naive Bow for the idenus and at be inferredbases (such NAST (for se. Such tools hur or other 

nce analysis.

encing pla

vary dependRoche 454) o(non specific

ibo‐tags

ing/Chimera C

Homapproa

omy profiling

n identification

ations in decon molecultforms, withtechnology 5%. The hypf the gene ish low variandetection. IdBayesian clasdentificationtimes speciefor potentia as greengenequence aligfor phyloger pipelines. 

.

atform to c

ding on the sor many paic) rRNA prim

Checking)

ology based aches (BLAST)

ep NGS sequle within a mh up to 96 bahas high senper‐variable rs considerednce are bettedentificationssifiers (NBCn of known pes level. Phyal novel pathnes, RDP, ornment) and ny inference

choose

sequencing red‐end shomers. Pyrose

uencing of mixture of arcoded samnsitivity and regions of thd hyper‐variaer suited to on of uncultivC) or homolopotential miylogenetic hogens, eithr SILVA) or byFastTree (foe can be use

platform utiort reads (Illuequencing 

mples the he able) other vated ogy‐crobes 

er y de or ed in 

ilized. umina) 

Page 46: Technical and Operational Assessment of Genomic Sequencing Platforms

45 

technologies (454) introduce homopolymer errors (also called ‘noise’) into sequence data, so analysis must begin by “denoising” the data to remove errors. Recent results show using paired‐end Illumina reads significantly improves the accuracy of taxonomic assignments compared to single‐end amplicon sequencing runs [10].  

Technical Limitation

Ribosomal ribonucleic acid (rRNA) is the RNA component of the ribosome and is essential for protein synthesis in all cellular organisms. This trait is not extended to viruses, which are in fact not cellular and therefore it is not useful in detecting viral pathogens. There are many potential biases that can be introduced to SSU rRNA data, the first being that degenerate “universal” primers are likely biased toward known sequences, leading to the exclusion of divergent genes. Additionally the PCR reaction has the ability to introduce chimeric molecules, potentially confounding analysis and identification of reads. Computer algorithms, such as the UCHIME, CHECK_CHIMERA of RDP, are useful in the prediction and location of such chimeric molecules within a dataset.  

Computational requirements

Due to maturity of characterization tools available for targeted rRNA amplicon sequence analysis, the computational requirements are relatively low. A single sample can be classified quickly using QIIME and Mothur packages on a desktop computer. We recommend OCONUS laboratories install a QIIME virtual box first, this is a virtual machine based on Ubuntu LINUX which comes pre‐packaged with QIIME’s dependencies. This is useful for small analyses (approximately a full 454 run) and testing QIIME to determine if it doesn’t meet OCONUS needs. If not, the next option would be to invest time in installing the native version on a large LINUX cluster environment in CONUS reach‐back support lab. Similarly, Mothur can also be installed on desktop computers in OCONUS labs.  

PathogenID amplicon sequencing

Methodology

DNA signatures are nucleotide sequences that can be used to detect the presence of an organism and to distinguish that organism from all other species. There are several stand‐alone applications used for direct, automated selection of DNA signatures. KPATH was a pioneer computational methodology developed for the identification of DNA signatures in silico. The signature discovery pipeline of KPATH integrates different previously developed algorithms in a multiple step approach. Initially it uses MGA (Multiple Genome Aligner) to align numerous bacterial genomes simultaneously, followed by Vmatch, a suffix tree algorithm for comparing the target genome(s) against all the available genome sequences. This analysis allows for genomic regions that are present in other microorganisms to be filtered out, leaving only the sequences unique to the target(s). The signature sequences are then transferred to the software Primer3 and probes are designed to be used in real‐time TaqMan assays and have been field‐tested for routine pathogen screening, demonstrating the potential of in silico prediction of DNA signatures. Similarly, Insignia, 

Page 47: Technical and Operational Assessment of Genomic Sequencing Platforms

46 

TOFI, and Yviruses eitPCR produthousandsdiagnosticsequencindatabase osample.  

Technica

PCR‐basedcultivabilita huge bensensitivity identifying

Computa

As with rRthan a dessequencedpackages, require litt

Figure 18:

Isolate g

Methodo

If an isolatlevel variagiven isola  (1) identi  (2) detect

Yoda are othher optimizeucts could bes PCR amplics to be applg library perof the target

al Conside

d techniquesty. The wide nefit and a mare both higg unknown o

ation requ

NA ampliconsktop compud, rapid alignwhich can btle scientific 

Work flow c

genome se

ology

ted biothreants are possate is from itfication of thtion variatio

her open acced for TaqMe sequencedcons simultaied to a singr sample for t genes, and 

rations

s allow for thrange of ava

minor drawbgh for identior emerging 

irements

n sequencinuter and accenment tools be installed otraining and

chart of path

equencing

t agent (patsible. Characs nearest nehe nearest non among th

Hom

Pat

cess tools aian assay or 

d by NGS. NGneously. Thigle sample, fsequencingpositive hits

he identificaailable primback. The widfying knownpathogens. 

g, computatess to sequeare requiredon a desktopd are easily s

ogenID amp

g: Read ba

hogen) has bcterization iseighbor. Idenneighbor,  em and  

Pathoge

Qua

mology search a

thogen identifica

med at idenmicroarray GS platformss allows useollowed by p. Sequencess would indi

tion of knowers for pathode range of tn pathogen,  

tional requirencing data. d (Blast, BWp computer istandardized

licon sequen

ased analy

been cultiva performed ntification an

enID Amplicon

ality Check

against signature

ation (species/st

ntifying DNA assays respes are capablee of all availapooling of als can then beicate targete

wn pathogenogen detecttargets meabut this met

rements are After these 

WA, Bowtie2, in OCONUS d for a wide 

nce analysis.

ysis for Is

ated, sequento determinnd characte

e database

train level)

signatures fectively. Altee of sequencable PCR primll PCR produe rapidly maed pathogen

n(s), regardletion in a clinians that specthod will no

low and do PCR producetc) as well lab. Both amrange of use

solate gen

ncing and anne how similrization requ

for bacteria ernatively, thcing hundredmers designucts into a sinapped back tn present in t

ess of their ical setting icificity and t allow for 

not require cts have beeas the Samt

mplicon methers. 

nome

alysis of straar or differeuires three s

and hese ds or ed for ngle to a the 

s both 

more n tools hods 

ain ent a steps: 

Page 48: Technical and Operational Assessment of Genomic Sequencing Platforms

47 

  (3) characterization of genes known to contribute to pathogenicity or virulence in near‐neighbors.  Typically to reach these goals shotgun reads are first compared to a reference genome database and are then mapped to its reference genome for identifying genome variations (such as SNPs). These variations may be used to trace pathogen’s origin and its phylogenetic relationship to other known species. The last step of mapping reads to antibiotic resistance/virulence database helps determine if sequence reads fall within genes of potential interest, such as antibiotic resistance genes or other factors that may play a role in pathogenicity.  

Technical Considerations

This is a highly robust method for characterizing a genome of an isolated biothreat agent. However it is time consuming, requiring hours of computational time followed by analysis of the results. It is also more difficult with read‐based analyses to identify novel genes or plasmids that have been introduced into a biothreat agent, leading to potential false‐negative results when searching for known specific pathogenicity or virulence factors.  

Computation requirements

Rapid alignment tools are required (Blast, BWA, Bowtie2, Blat, etc) along with associated analysis tools (SAMtools, etc). To perform analysis of genomic differences, a reference genome and its annotation are also required. Currently, there are >3,000 bacterial genomes and >30,000 viral genomes deposited at NCBI. To maintain all of these on a local database currently requires >6GB of storage, which is readily accomplished but does require maintenance. If the organism has not been classified at species level, software capable of classifying reads to higher taxonomic levels could also be used. These characterization tools, such as PhyloSift and Sequedex, require little computational power but do require some expertise. In order to identify potential virulence factors from a list of genes, a centralized database, such as Mvirdb and VFDB, are used as references. Variation detection among genomes (SNP, InDel) requires genotyping and SNP calling programs (such as SOAP2, realSFS, Samtools, GATK, Beagle, IMPUTE2, QCall, MaCH), followed by phylogenetic analysis (such as MEGA).  

Assembly based analysis for Isolate genome

Methodology

To better address the need of identifying unknown or emerging pathogens, assembly of generated reads can produce assembled contigs from NGS data that are not only capable of analysis by comparison to a reference genome, but also by de novo analyses. Assembly of NGS data is highly platform specific, with Illumina reads requiring a Kmer‐based assembler (such as Velvet, SOAPdenovo, or CLC bio) and 454 or Ion Torrent reads being better assembled using Roche’s proprietary Newbler software, or the publically available MIRA assembler, which are trained to recognize platform specific sequencing errors that make assembly difficult. Assembled contigs can be aligned to the reference genome using alignment software (such as Blast or MUMmer tools) and analyzed for SNP/INDELs. Genome rearrangements can also be detected by comparative genome analysis. Analysis of the assembled sequences can be performed by annotating the 

Page 49: Technical and Operational Assessment of Genomic Sequencing Platforms

48 

contigs indannotationinformatioantibiotic reads not may be suanalyzed f

Technica

This methonear‐neighpathogeniintentionanegatives,genome re

Computa

This approsearching desired, eihigh‐speed

Figure 19: W

dividually, usn system (Eron to identifyresistance, opossessing sggestive of aor gene con

al Conside

od is ideal tohbor referencity factors oally inserting as genes of earrangeme

ation requ

oach has medtools listed aither significd internet ac

Work flow chart

Pathofacto

BLASan

resvirulen

sing publiclyrgatis and Cloy the bio‐thror other factsignificant ala previously tent, to dete

rations

o identify fornce, as can oor potential a new geneinterest mant detection

irements

dium compuabove wouldcant investmccess to an e

t of isolated gen

Mapping to p

ogen characterors such as ant

ST against ntibiotic sistance/ nce database

y available, woVR). Annotreat organismtors. Formatignment simundetectedermine if the

reign elemeoccur as a resly through ae into the geay be incorren can lead to

utational reqd be needed

ment in softwexternal ann

nome sequence

Isolate

pathogen DB

rization: Virulentibiotic resistan

Detect variamong

genomes (InDel)

web‐based, ttation resultsm, and classion of large milarity to and organism. Sey contribut

nts in a bio‐tsult of a bac recombinatnome. Genoectly assembo false positiv

quirements. d. If de novoware and harotation port

e analysis.

genome seque

nce nce

iation g SNP, )

tools (such as can then bsify it by its fcontigs comny sequence Such non‐mate towards p

threat agentcteria pickingtion or geneomes assembled or not aves, resultin

The de novoannotation rdware for thtal will be re

encing

Genome a

Compagenoanal

Pathogen IDor engineere

as RAST) or abe examinedfunctional camprising seve in the referapped sequepathogenicity

t that are nog up a new petic engineerbly may resuassembled atng in incorrec

o assembler of assemblehis purpose equired.  

assembly

arative ome lysis

D: (emerging ed pathogen)

an in‐house d to look for apacity, sucheral unmapprence databaences can aly or virulenc

ot present inplasmid contring event ult in false t all. Additioct conclusion

and homoloed sequenceis required, 

 

h as ped ases so be ce.  

n the taining 

onally, ns.  

ogy s is or 

Page 50: Technical and Operational Assessment of Genomic Sequencing Platforms

49 

Metagenome Sequence Analysis: Mixed sample based pathogen ID and characterization (read based)

Methodology

Benefits of metagenomic sequencing to OCONUS laboratories include the increased information richness and decreased need for on‐site expertise in pathogens culturing or isolation. Additionally, no information about the potential virulence genes sequenced is needed. To start, community composition and presence of known or unknown pathogens must be understood. To determine the phylogenetic membership of microbial communities based on metagenomic sequences, several freely available and popular software packages compare the metagenomic reads to a variety of full genome sequences using a read‐based approach, such as read mapping and BLAST. The identity of the best match then determines the likely phylogenetic origin of the sequence. Another alternative is to find and extract informative phylogenetic markers from the metagenomic reads, which can be processed with similar methods to targeted gene surveys. However, the taxonomic assignments from arbitrary metagenomic fragments remain a big challenge as much of the novelty in metagenomes still corresponds to organisms that lack a sequenced reference genome and complementing metagenomic analyses with 16S rDNA analyses, for which much larger reference databases exist, are often useful. One advantage of metagenomic approaches is their ability to discriminate strains of common species by gene content beyond the resolution that is possible with 16S rDNA sequences, although this approach requires high coverage and thus cannot be applied to rarer members of the community. 

Using a wide range of reference resistance genes, the potential for multiple antibiotic resistances can be predicted from a single metagenome. The metagenomic sequences represent the diversity of the community, including strains that cannot be cultured, valuable information for the study of community changes as a result of antibiotic treatment. The biggest challenge with sequence‐based metagenomics is the large number of sequences with no significant similarity to previously sequenced genes or organisms. Without known reference sequences, resistance genes cannot be easily identified in the metagenomes. The strong selection for antibiotic resistance alleles results in convergent evolution – the adaption of very different genes to perform the same function. Many resistance genes identified in functional screens have low similarity to known genes, but sequence based approaches are generally limited to only identify things we already know. 

Technical Considerations

This is a rapid classification method for mixed samples and can identify potential pathogens rapidly, but is limited to the set of known targets and will not necessarily identify all potential biothreat agents in a sample. All metagenomic analysis is limited by the depth of coverage generated by the sequencing technology, with increased sequence data requiring greater computational time and power. Some pipelines developed for rapid identification of pathogens, such as RINS and PathSeq, are especially useful for viral genome detection. However mapping against all genomes is slower and demands more computational resources. 

Page 51: Technical and Operational Assessment of Genomic Sequencing Platforms

50 

Computa

Rapid alignare requiregenomes awhich is respecies levThese chabut do reqassignmendatabase s

Figure 20: Wo

Mixed sa

Methodo

Given the methods rsamples. Tclassificatimixed samsubsequenlonger genbased asse

ReferencemetAMOScan often works wel

tational Re

nment tools ed. For the ravailable. Toeadily accomvel, softwareracterizationquire some ents. In order such as Mvir

ork flow chart of

ample bas

ology

amount of nrelying on daThis is of paron of virulen

mples or obtant characterinomic contigembly (co‐as

‐based asseS or MIRA. Thbe performel if the meta

M

BLresis

equiremen

(BWA, Bowreference dao maintain almplished but e capable of n tools, suchexpertise to to identify prdb and VFD

f mixed sample b

sed patho

novel sequenatabases willticular dangnce genes is ain full‐lengtization, assegs. Two stratssembly) and

mbly can behese softwared on laptopagenomic da

Mapping to path

LAST against atance/ virulen

Pathogen id

nts

tie2, CLCaligatabase, thell of these onrequires maclassifying r

h as PhyloSiftunderstand potential viruB, are used 

based pathogen I

ogen ID an

nce in metagl fail to classger with viralless universth CDS of virembly of shotegies can bed de novo as

e done with sre packages p‐sized machtaset contai

Isolate gen

hogen DB

antibiotic nce database

dentification (em

gner etc) andre are >3,00n a local dataintenance. reads to hight and Sequethe potentiaulence factoas reference

ID and character

nd charact

genomics shsify many nol pathogens sal. In order rulence factoort read fragme employed ssembly.  

software pacinclude fast

hines in a couns sequence

nome sequencin

merging or eng

d associated00 bacterial gtabase curreIf the organher taxonomdex, requireal false positors from a lises.  

rization

cterization

hotgun readsovel or divergwhere evoluto recover tors/antibiotiments mustfor metagen

ckages such t and memouple of houres where clo

ing

Metageassemb

Metagenome

gineered patho

d analysis toogenomes anntly requireism has not 

mic level coue little comptive/negativst of genes, c

n (assemb

s, read‐basegent pathogution is rapidthose novel ic resistancefirst be perfnomics samp

 as Newblerry‐efficient ars. Referenceosely related

enome bling

e annotation

ogen)

ols (SAMtood >30,000 vs >6GB of stbeen classifld also be usutational poe rates in thcentralized 

bly based)

d classificatigens presentd and pathogens fe genes for formed to oples: referen

r (Roche), algorithms he based assed reference 

ls, etc) iral torage, fied at sed. ower, hese 

ion t in 

rom 

btain nce‐

hence embly 

Page 52: Technical and Operational Assessment of Genomic Sequencing Platforms

51 

genomes are available. Differences in the true genome to the reference, such as a large insertion, deletion, or polymorphisms, can indicate that the assembly is fragmented or divergent regions are not covered. 

De novo assembly typically requires larger computational resources. A whole class of assembly tools based on the de Bruijn graphs was specifically created to handle very large amounts of data. Machine requirements for the de Bruijn assemblers Velvet or SOAP are still significantly greater than for reference‐based assembly (co‐assembly), often requiring hundreds of gigabytes of memory in a single machine and run times frequently take days. Unfortunately without assembly, longer and more complex genetic elements (e.g., pathogenicity islands) cannot be analyzed. This leads to the need for metagenomic assembly to obtain high‐confidence contigs, enabling study of virulence factors and antibiotic resistance genes in samples. To complement read based analysis, several computational tools based on metagenomic de novo assembly can be applied. Once contigs having been annotated, virulence factors from those pathogens in the community could be inferred by comparing the metagenomic sequences to large databases of pathogen/virulence factors/antibiotic resistance (for the abundant pathogen). In practice, depending on the sequencing strategy, coverage and community complexity, the sequences can be assembled into larger contigs for gene calling prior to annotation. Some software packages, such as metAMOS, SmashCommunity, MOCAT, exist to tie together various components, although no single standard exists yet.  

Annotation of metagenomic sequence data has two general steps: (1) features of interest (genes) are identified (feature prediction), and (2) gene function and taxonomy profiling assigned (functional annotation). Feature prediction is the process of labeling sequences as genes or genomic elements. A number of available tools are specifically designed to handle metagenomic prediction of CDS, including FragGeneScan, MetaGeneMark, MetaGeneAnnotator (MGA)/ Metagene and Orphelia. All of these tools use internal information (e.g., codon usage) to classify sequence stretches as either coding or non‐coding, however they distinguish themselves from each other by the quality of the training sets used and their usefulness for short or error‐prone sequences. FragGeneScan is currently the only algorithm known to the authors that explicitly models sequencing errors and thus results in gene prediction errors of only 1‐2%. True positive rates of FragGeneScan are around 70% (better than most other methods), meaning that this tool still misses a significant subset of genes. These missing genes could potentially be identified by BLAST‐based searches; however the size of current metagenomic datasets often makes this computationally prohibitive. Functional annotation represents a major computational challenge for mixed sample metagenomic studies. Current estimates are that only 20 to 50% of a metagenomic dataset can be annotated, leaving the immediate question of importance and function of the remaining genes. Metagenomic annotation typically relies on classifying sequences to known functions or taxonomic units based on homology searches against available “annotated” data. Considering the large size of metagenomic datasets, manual annotation is not feasible; therefore the ideal automated annotation would be very accurate and computationally inexpensive. Running a BLASTx similarity search is currently computationally expensive. Computationally less demanding methods, involving detecting feature composition in genes, have limited success for short reads. With growing dataset sizes, some software packages (such as MG‐

Page 53: Technical and Operational Assessment of Genomic Sequencing Platforms

52 

RAST, IMG‐M‐ER, CloVR, SmashCommunity and Virome) now exist to address this, however no single standard exists yet.  

Technical Considerations

The computational requirements are very high, typically a machine with large RAM to assemble contigs or the ability to transfer data to a location with these capabilities. Interpretation of data may be a slow process.  

Computation Requirements

The de novo assembler and homology searching tools listed above are needed. For de novo annotation of assembled sequences, either significant investment in software and hardware for this purpose is required or high‐speed internet access to an external annotation portal will be required. 

 

Page 54: Technical and Operational Assessment of Genomic Sequencing Platforms

53 

Appendix 3: List of software packages mentioned Tool Name Description Website Reference

rRN

A A

mp

lico

n A

nal

ysis

Pipelines Quantitative Insights Into Microbial Ecology (QIIME)

Software package for comparison and analysis of microbial communities, primarily based on high-throughput amplicon sequencing data (SSU rRNA)

http://qiime.org/ [11]

Mothur Collection of tools for analysis of 16S rRNA datasets http://www.mothur.org/ [12] Database Greengenes 16S rRNA gene sequence alignment for browsing, blasting,

probing, and downloading. http://greengenes.lbl.gov/cgi-bin/nph-index.cgi

[13]

Ribosomal Database Project (RDP)

Data analysis and aligned and annotated Bacterial and archaeal small-subunit 16S rRNA sequences.

http://rdp.cme.msu.edu/ [14]

SILVA Comprehensive, quality checked datasets of aligned rRNA sequences for all three domains of life

http://www.arb-silva.de/ [15]

Standalone tools NAST Align a batch of sequences against the 16S greengenes rRNA

gene database http://greengenes.lbl.gov/cgi-bin/nph-NAST_align.cgi

[16]

FastTree Infers approximately-maximum-likelihood phylogenetic trees from alignments of nucleotide or protein sequences.

http://www.microbesonline.org/fasttree [17]

QC tools AmpliconNoise Removal of noise from 454 sequenced PCR amplicons http://code.google.com/p/ampliconnoise/ [18] Denoiser Removes sequencing noise characteristic to pyrosequencing by

flowgram clustering. http://qiime.org/scripts/denoiser.html [11]

Find Chimeras Uncover chimeras hidden in 16S rRNA sequences. http://decipher.cee.wisc.edu/FindChimeras.html

[19]

UCHIME Check for chimeras http://drive5.com/uchime/ [20]

Pat

hog

enID

Am

pli

con

S

equ

enci

ng

Identification of DNA signatures KPATH Identification of DNA signatures in silico https://www.llnl.gov/str/April04/Slezak.ht

ml

n/a

TOFI Oligonucleotide fingerprint identification for microarray-based pathogen diagnostic assays

https://applications.bioanalysis.org/tofi/ n/a

Yoda Yet-another Oligonucleotide Design Application (PMID: 15572465)

http://pathport.vbi.vt.edu/YODA [21]

Insignia Generates unique DNA signatures for any and all pathogens http://insignia.cbcb.umd.edu/index.php [22] Alignment engines Basic Local Alignment Search Tool (BLAST)

homology searching engine https://www.ncbi.nlm.nih.gov/ [23]

Page 55: Technical and Operational Assessment of Genomic Sequencing Platforms

54 

Tool Name Description Website Reference Bowtie2 Aligns short NGS reads to long reference sequences. http://bowtie-

bio.sourceforge.net/bowtie2/index.shtml

[24]

BWA Burrows-Wheeler Aligner (BWA) is an efficient program that aligns relatively short nucleotide sequences against a long reference sequence

http://bio-bwa.sourceforge.net/ [25]

Isol

ate

gen

ome

seq

uen

cin

g (r

ead

bas

ed a

nal

ysis

)

Alignment engine Blast homology searching engine https://www.ncbi.nlm.nih.gov/ [23] Bowtie2 Aligns short NGS reads to long reference sequences. http://bowtie-

bio.sourceforge.net/bowtie2/index.shtml

[24]

BWA Burrows-Wheeler Aligner (BWA) is an efficient program that aligns relatively short nucleotide sequences against a long reference sequence

http://bio-bwa.sourceforge.net/ [25]

Blat BLAST-like alignment tool http://genome.ucsc.edu/cgi-bin/hgBlat?command=start

[26]

Samtools Package for manipulation of NGS alignments, which includes a computation of genotype likelihoods (samtools) and SNP and genotype calling (bcftools)

http://samtools.sourceforge.net/ [27]

Virulence factor Database Mvirdb a microbial database of protein toxins, virulence factors and

antibiotic resistance genes http://mvirdb.llnl.gov/ [28]

VFDB reference database for bacterial virulence factors http://www.mgc.ac.cn/VFs/main.htm [29] SNP call tools SOAP2 Package for NGS data analysis, which includes a single

individual genotype caller (SOAPsnp) http://soap.genomics.org.cn/index.html [30]

realSFS Software for SNP and genotype calling using single individuals and allele frequencies. Site frequency spectrum (SFS) estimation

http://128.32.118.212/thorfinn/realSFS/ -

Samtools Package for manipulation of NGS alignments, which includes a computation of genotype likelihoods (samtools) and SNP and genotype calling (bcftools)

http://samtools.sourceforge.net/ [27]

GATK Package for aligned NGS data analysis, which includes a SNP and genotype caller (Unifed Genotyper), SNP filtering (Variant Filtration) and SNP quality recalibration (Variant Recalibrator)

http://www.broadinstitute.org/gsa/wiki/index.php/The_Genome_Analysis_Toolkit

[31]

Beagle Software for imputation, phasing and association that includes a mode for genotype calling

http://faculty.washington.edu/browning/beagle/beagle.html

[32]

IMPUTE2 Software for imputation and phasing, including a mode for genotype calling. Requires fine-scale linkage map

http://mathgen.stats.ox.ac.uk/impute/impute_v2.html

[33]

Page 56: Technical and Operational Assessment of Genomic Sequencing Platforms

55 

Tool Name Description Website Reference QCall SNP and genotype calling, including a method for generating

candidate SNPs without LD information (NLDA) and a method for incorporating LD information (LDA). The 'feasible' genealogies can be generated using Margarita

ftp://ftp.sanger.ac.uk/pub/rd/QCALL http://www.sanger.ac.uk/resources/software/margarita

n/a

MaCH Software for SNP and genotype calling, including a method (GPT_Freq) for generating candidate SNPs without LD information and a method (thunder_glf_freq) for incorporating LD information

http://genome.sph.umich.edu/wiki/Thunder

[34]

Molecular Evolutionary analysis tool MEGA an integrated tool for conducting sequence alignment, inferring

phylogenetic trees, mining web-based databases, estimating rates of molecular evolution, inferring ancestral sequences, and testing evolutionary hypotheses.

http://www.megasoftware.net/ [35]

Isol

ate

gen

ome

seq

uen

cin

g (a

ssem

bly

bas

ed a

nal

ysis

)

Assembly tools Velvet Short read assembler for small genomes, ideal for Illumina data http://www.ebi.ac.uk/~zerbino/velvet/ [36] SOAPdenovo Short read assembler (designed for Illumina GA reads) that can

handle up to human sized genomes http://soap.genomics.org.cn/soapdenovo.html

[33]

CLC bio Commercially available software for analysis, visualization and comparison of nucleic acid and protein sequence data.

http://www.clcbio.com/ n/a

Newbler Short read NGS data assembler optimized for Roche 454 pyrosequencing data

MIRA De-novo assemblies using reads gathered through Sanger, 454 or Solexa sequencing technologies.

http://www.chevreux.org/projects_mira.html

[37]

Annotation system Rapid Annotation using Subsystem Technology (RAST)

Fully-automated service for annotating bacterial and archaeal genomes.

http://rast.nmpdr.org/ [28]

Ergatis Ergatis: A web interface and scalable software system for bioinformatics workflows.

http://ergatis.sourceforge.net/ [38]

CloVR CloVR: A virtual machine for automated and portable sequence analysis from the desktop using cloud computing

http://clovr.org/ [39]

Comparative genome tools ACT ACT: Artemis Comparison Tool http://www.sanger.ac.uk/resources/softwa

re/act/

[40]

Mauve System for constructing multiple genome alignments in the presence of large-scale evolutionary events such as rearrangement and inversion.

http://gel.ahabs.wisc.edu/mauve/ [41]

MUMmer Graphical viewing tools for analyzing genome alignments http://mummer.sourceforge.net/ [24]

Mi

xe d Read based annotation

Page 57: Technical and Operational Assessment of Genomic Sequencing Platforms

56 

Tool Name Description Website Reference MG-RAST Automated analysis platform for metagenomes http://metagenomics.anl.gov/ [42] IMG-M-ER Microbial community metagenome datasets https://img.jgi.doe.gov/cgi-

bin/mer/main.cgi

[43]

Virome Viral metagenome analysis http://virome.diagcomputing.org/#view=home

[44]

CloVR Uclust, blastx for function, blastn for tax, metastats for beta diversity, alternatively, metagene for protein seq

http://clovr.org/methods/clovr-metagenomics/

[39]

Mapping based pipeline RINS Rapid Viral detection http://khavarilab.stanford.edu/resources.ht

ml

[45]

CaPSID Rapid pathogen detection (especially good for virus) https://github.com/capsid/capsid - Pathseq Computational tool for ID & analysis of microbial sequences in

high-throughput human sequencing data, designed to work with large numbers of sequencing reads in a scalable manner.

http://www.broadinstitute.org/software/pathseq/

[46]

Standalone mapping tools BWA Read mapping tool http://bio-bwa.sourceforge.net/ [25] Bowtie2 Read mapping tool http://bowtie-

bio.sourceforge.net/bowtie2/index.shtml

[24]

Novaalign Commercially available aligner for single-ended and paired-end reads from the Illumina Genome Analyser

http://www.novocraft.com/main/page.php?s=novoalign

-

CLC bio Commercially available software for analysis, visualization and comparison of nucleic acid and protein sequence data.

http://www.clcbio.com/ -

Marker gene based pipeline MLTreeMap phylogenetic markers based on tax assignment http://mltreemap.org [47] MetaPhlAn Profiling the composition based on marker genes http://huttenhower.sph.harvard.edu/metap

hlan/

[48]

Metaphyler Profiling the composition based on marker genes http://www.cbcb.umd.edu/~boliu/metaphyler/

[49]

PHYLOSHOP Inferred from 16S rRNA gene sequencing and shotgun metagenomics

http://omics.informatics.indiana.edu/mg/phyloshop/

[50]

PhyloSift Pipeline conduct phylogenetic analysis of genomes and metagenomes (good for pathogen detection)

https://github.com/gjospin/PhyloSift -

Sequedex Rapid phylogenetic and functional classification of short genomic fragments with signature peptides

http://sequedex.lanl.gov/ [31]

Mix

ed s

amp

le

bas

ed

pat

hog

en I

D Assembly based

SmashCommunity 454 assembly and gene prediction, blast based assignment http://www.bork.embl.de/software/smash/

[51]

Metamos Assembling and analysis https://github.com/treangen/metAMOS/wiki

[52]

Page 58: Technical and Operational Assessment of Genomic Sequencing Platforms

57 

Tool Name Description Website Reference MOCAT pipeline: trim--read mapping--assembling--gene prediction http://vm-

lux.embl.de/~kultima/MOCAT//about.html

[53]

Metagenome gene call FragGeneScan predicts the protein-coding regions in short reads http://omics.informatics.indiana.edu/FragG

eneScan

[14]

MetaGene prokaryotic gene-finding program, that utilizes di-codon frequencies estimated by the GC content of a given sequence with other various measures

http://rgd.mcw.edu/wg/tool-menu/metagene-to-be-retired

[17]

MetaGeneAnnotator (MGA)

Predicts prokaryotic genes from a single or a set of anonymous genomic sequences

http://metagene.cb.k.u-tokyo.ac.jp. [18]

Orphelia metagenomic ORF finding tool for the prediction of protein coding genes in short, environmental DNA sequences with unknown phylogenetic origin

http://orphelia.gobics.de/ [54, 55]

MetaGeneMark gene identification in DNA sequences derived from shotgun sequencing of microbial communities

http://exon.gatech.edu/GeneMark/metagenome/index.cgi

[19]

Metagenome assembly tool Amos Short read assembler https://www.msi.umn.edu/sw/amos - Bowtie2 Aligns short NGS reads to long reference sequences. http://bowtie-

bio.sourceforge.net/bowtie2/index.shtml

[24]

CLCbio Commercially available software for analysis, visualization and comparison of nucleic acid and protein sequence data.

http://www.clcbio.com/ n/a

Meta-IDBA An iterative De Bruijn Graph de novo short read assembler specially designed for de novo metagenomic assembly

http://www.cs.hku.hk/~alse/metaidba. [20]

MetaVelvet Metagenome assembler for short read (Illumina) datasets http://metavelvet.dna.bio.keio.ac.jp/ [21]

MIRA De-novo assemblies using reads gathered through Sanger, 454 or Solexa sequencing technologies.

http://www.chevreux.org/projects_mira.html

[22]

Newbler Short read NGS data assembler optimized for Roche 454 pyrosequencing data

n/a

SOAPdenovo Short read assembler (designed for Illumina GA reads) that can handle up to human sized genomes

http://soap.genomics.org.cn/soapdenovo.html

[33]

Trinity Reconstructs a large fraction of transcripts, including alternatively spliced isoforms and transcripts from recently duplicated genes.

http://evomics.org/learning/genomics/trinity/

[34]

Velvet Short read assembler for small genomes, ideal for Illumina data http://www.ebi.ac.uk/~zerbino/velvet/ [37]

Table 19: Software tools and packages mentioned in Chapter 1.

 

Page 59: Technical and Operational Assessment of Genomic Sequencing Platforms

58 

Appendix 4: Comparative Analysis of Performance of Current Sequencing Platforms

Abstract

To investigate the relative accuracy, utility and applicability of sequencing platforms (Ion Torrent, Illumina MiSeq, Illumina HiSeq, Roche 454 and Pacbio RS), sequencing operations were performed on three bacteria of varying G+C content on each platform, as well as exploring the use of several kits and chemistries for the Illumina platform. Due to the necessary amplification for the library preparation stage, most platforms show some level of G+C bias. This investigation indicates that for most applications, the NebNext2 kit shows more even and better coverage than the TruSeq library preparation methodology. The addition of betaine to the library preparation steps did not negatively affect samples and appears to have improved coverage of high G+C organisms. Illumina sequencing yields fewer InDel errors than other platforms.  

Samples and Method

Strain selection and sequencing methodology

Three isolate bacterial samples with finished genomes ranging from high (69%) to low (32%) G+C ratio were selected. Each isolate genome was sequenced using Roche 454 FLX, Ion Torrent PGM, Illumina and PacBio instruments. Additionally, for Illumina sequencing, two kits (Illumina TruSeq, NebNext 2) were tested, as was the addition of a DNA stabilization solution (betaine) to determine their effects on evenness of coverage, and their contribution towards changes in assembly. Table 10 lists the organisms used for this investigation. Illumina samples were multiplexed onto multiple lanes, yielding varying coverage for each sample. Ion Torrent samples were run using manufacturer’s instructions and software on a 316 chip. For 454 libraries, ¼ or ½ plate runs were selected for each sample. Each sample was prepared for a ~2Kb sequence run on Pacbio and 8 SMRT‐cells were sequenced. For a detailed description of the library preparation and sequencing methodologies see Chapter 4. 

Isolate %GC Size Notes Burkholderia thailandensis 68% 6.71Mb 2 Chromosomes Escherichia coli 50% 5.3Mb Isolate from the Republic of Georgia

4 Plasmids Bacillus anthracis 36% Isolated variant of B.anthracis Ames

1 Plasmid Table 20: List of bacterial strains used in comparative study. (Duplicate of table 11 in main text).

Analysis

We performed analysis of sequencing quality by trimming all reads at quality 5 to remove low quality sequence. The percent of bases and percent of reads removed during trimming was calculated for all sequencing samples and compared between samples. Trimmed reads were aligned to finished reference genomes using the Burrows‐Wheeler Aligner (BWA). SAMtools (see Table 19 for information on this is other tools used) was used to calculate all coverage statistics 

Page 60: Technical and Operational Assessment of Genomic Sequencing Platforms

59 

and identify and count SNP/InDels. All samples were assembled with the Velvet assembler, using default parameters and K=75. Next, each generated contig set was aligned to the reference using nucmer. The percent coverage and SNP/InDels were identified using MUMmer tools. For Roche 454 and Ion Torrent PGM data, sequence data was also assembled using an overlap based consensus tool, Newbler (454) which was designed for 454 data. Comparisons between these contigs and the assembled reference were performed using MUMmer tools to calculate genome coverage and SNPs and InDel coverages. As the samples used have finished reference genomes, InDel and SNPs are presumed to be false positives, indicating that fewer is better.  

Results

Illumina sequencing, assembly, and analysis

Platform HiSeq HiSeq MiSeq MiSeq Library Prep. TruSeq + Betaine NebNext2 +Betaine TruSeq +Betaine NebNext2 +Betaine

B. t

hail

ande

nsis

Reads Generated (Million)

26.4 25.4 27.6 24.6 20.3 21.3 25 32.4

% Genome Coverage

99.99% 100% 100% 100% 100% 100% 100% 100%

Fold Coverage ±StDev*

324±112 310±82 278±76 306±84 388±128 401±90 453±98 629±143

E. c

oli

Reads Generated (Million)

18.5 26.7 25 22.9 N/A 7.2 9 7.4

% Genome Coverage

100% 100% 100% 100% N/A 100% 100% 100%

Fold Coverage ±StDev*

240±32 337±53 345±40 321±38 N/A 158±28 223.17±28 182.59±30

B. a

nthr

acis

Reads Generated (Million)

47.8 17.1 33.7 3.2 7.1 6.4 9.2 8.8

% Genome Coverage

100% 100% 100% 100% 100% 100% 100% 100%

Fold Coverage ±StDev*

204±82 569±205 874±121 39±9 105±41 167±62 192±30 204±31

Table 21 details the results of sequencing and read‐mapping of Illumina reads to references. The results show that the Illumina platforms perform well for all organisms listed, produce accurate assemblies and have the highest throughput and per base sequencing quality. There are no noticeable differences between kits from the perspective of coverage or accuracy and the addition of betaine to the preparation improves sequencing coverage of high G+C content DNA without negative impacts on lower G+C regions.  

Platform HiSeq HiSeq MiSeq MiSeq Library Prep. TruSeq + Betaine NebNext2 +Betaine TruSeq +Betaine NebNext2 +Betaine

B.

thai

land

ensi

s Reads Generated (Million)

26.4 25.4 27.6 24.6 20.3 21.3 25 32.4

% Genome Coverage

99.99% 100% 100% 100% 100% 100% 100% 100%

Fold Coverage 324±112 310±82 278±76 306±84 388±128 401±90 453±98 629±143

Page 61: Technical and Operational Assessment of Genomic Sequencing Platforms

60 

±StDev* E

. col

i Reads Generated (Million)

18.5 26.7 25 22.9 N/A 7.2 9 7.4

% Genome Coverage

100% 100% 100% 100% N/A 100% 100% 100%

Fold Coverage ±StDev*

240±32 337±53 345±40 321±38 N/A 158±28 223.17±28 182.59±30

B. a

nthr

acis

Reads Generated (Million)

47.8 17.1 33.7 3.2 7.1 6.4 9.2 8.8

% Genome Coverage

100% 100% 100% 100% 100% 100% 100% 100%

Fold Coverage ±StDev*

204±82 569±205 874±121 39±9 105±41 167±62 192±30 204±31

Table 21: Sample table of results by library preparation method. *Coverage and standard deviation values for Burkholderia thailandensis are presented as an average of both chromosomes. (Duplicateof table 15 in main text).

Read based analysis

Figure 21 illustrates the variation of evenness of coverage of the three pathogens between kits, and between MiSeq and HiSeq. For the high G+C Burkholderia thailandensis strain sequenced, a noticeable drop in percent coverage is seen for TruSeq libraries generated without the use of betaine, coupled with a higher standard deviation of fold coverage indicating a drop in coverage of the higher %G+C regions. For all other samples, evenness of coverage (calculated as a function the normalized standard deviation of fold coverage for each base in each genome) does not illustrate significant differences between treatments. There is some indication that NebNext kits result in lower deviation in coverage than TruSeq, however these results are not significant. 

 

Page 62: Technical and Operational Assessment of Genomic Sequencing Platforms

61 

Figure 21: Evenness of coverage of each sample type ordered by GC content. Measurement of evenness is expressed on a scale of 0-1, where 1 would indicate that all bases are covered at exactly the same fold coverage.

Comparisons of MiSeq to HiSeq generated data indicate that there is a minor, but consistent drop in base coverage of the genome, with MiSeq generated sequence data generating consistently more gaps than the HiSeq sequencing of the same library. This trend is supported regardless of differences in fold coverage between the two datasets and is most defined for Escherichia coli with a nearly 3‐fold increase in the number of bases not covered by reads compared to the HiSeq. There is also a noticeable shift in SNP calls between platforms of MiSeq or HiSeq. However it is unclear which of these two platforms are detecting more accurately.  

Assembly based analysis

Assembly of Illumina reads using Velvet with default parameters yields acceptable draft assemblies for all samples. As anticipated, the assembled contigs do not cover 100% of the genome. In general, more bases are covered by assemblies produced from higher coverage and for sequencing reactions using the NebNext2 Kit. Differences between these assemblies do not produce significant differences between samples. Additionally, the numbers of SNPs/InDels detected from assemblies are significantly greater than those from read‐mapping analyses. For every assembly, there are several possible genomic re‐arrangements identified by analysis, each are known to be incorrect.  

Discussion and recommendations for Illumina sequencing

These analyses indicate that read‐mapping based analyses are more accurate and produce fewer SNP/InDel calls than assembly. While there is limited value for assembly of reads from isolate genomes to locate possible genome rearrangements, which are difficult to impossible to find using current read‐mapping techniques these can be incorrectly assembled, as illustrated above. The use of a MiSeq is comparable, but not identical to the use of the HiSeq instrument, indicating a higher error rate for SNP/InDel detection by use of the MiSeq. Use of betaine is highly recommended for high %GC organisms based on this study. Library preparation kit selection has limited effect on the variability of coverage, but there is limited support for use of the NebNext2 kit over TruSeq.  

Platform comparisons

In this section we compare Illumina sequencing using NebNext2 and Betaine to the sequencing using Roche 454 and the Ion Torrent PGM. As discussed above de novo assembly of reads will result in worse coverage of bases for both the 454 and PGM, however use of an overlap based assembler (Newbler, 454) will be discussed briefly.  

Sequencing and read mapping

Even with an average coverage of 10× or greater, the coverage of the whole genome is less even for both the 454 and PGM. Generally the PGM behaved better for read‐mapping based coverage than 454 (99+% vs <98% average for 454). The relatively lower‐fold coverage for 454 may be 

Page 63: Technical and Operational Assessment of Genomic Sequencing Platforms

62 

responsible for some degree of this drop. It is important to note that similar depth of coverage from Illumina generates both more even and more complete coverage of the genome than the other platforms. Due to the sequencing process involved in both 454 and PGM sequencing, read‐mapping based analysis of these data types will result in significantly more InDel detections than Illumina reads, which is typically minimized during assembly.  

B. anthracis E. coli B. thailandensis Platform + Chemistry

Reads High Quality Reads

Reads High Quality Reads

Reads High Quality Reads

Roche 454* 2.77×105 2.50×105 2.71×105 2.47×105 4.58×105 3.71×105 Ion Torrent PGM 2.20×106 1.98×106 1.58×106 1.43×106 1.33×106 8.75×105 MiSeq TruSeq 7.16×106 7.13×106 N/A N/A 2.03×107 1.97×107 +Betaine 6.48×106 6.46×106 7.17×106 7.07×106 2.13×107 2.08×107 NebNext2 9.24×106 9.08×106 9.08×106 8.99×106 2.50×107 2.41×107 +Betaine 8.57×106 8.51×106 7.45×106 7.36×106 3.24×107 3.14×107

Table 22: Reads and trimming results for all platforms and chemistries. Duplicated from Table 12 in the main text.

Table 23 indicates the ability of each data type to adequately cover a target genome. The number of reads generated and possibility for multiplexing are also detailed.  

Platform Reads/Run (Ave Length)

Ave. Genome Coverage (%)

Fold Coverage (Min-Max)

Multiplex (max samples/run)

MiSeq ~20 Million (100Bp) 100% 40-800× 2-4** PGM (316 Chip) 1-2 Million (~200Bp) 99.99% 10-100× 1 454 FLX* 100,000 (400Bp) < 99% 5-45× 1

Table 23: Sample table for platform analysis. FLX is used in lieu of the GS Jr., previous studies have shown highly similar behavior between the two. Genome size coupled with desired fold coverage drives the calculations of how many samples may be multiplexed per run.

Analysis of the coverage evenness in 454 and PGM data indicate that evenness is more variable for both as compared to Illumina. Figure 22 illustrates the variation of this coverage for all three organisms and all three technologies.

Page 64: Technical and Operational Assessment of Genomic Sequencing Platforms

63 

 Figure 22: Comparison of evenness of coverage between platforms. Illumina MiSeq performs better in all cases.

Assembly

Use of Velvet for 454 and Ion Torrent data assembly is not ideal, due to the differences in Illumina based sequencing as compared to the highly similar methods of sequencing employed by 454 and the Torrent platforms. The 454 assembler (Newbler) or other overlap‐based assemblers designed to use 454 or PGM data (e.g. MIRA) are highly recommended for assembly of these data types. Analysis of assemblies using Velvet under the same conditions as described above yielded significantly worse results than those from any assembly of Illumina data. Assembly using Newbler gives similar coverage to that generated by Illumina reads and assembly for both platforms.  

Discussion and recommendations for cross- platform analysis

This study has indicated that Illumina MiSeq generates fewer errors than either the 454 or Ion Torrent platforms, regardless of coverage tested. Read mapping analysis indicates that all platforms are capable of covering the vast majority of the bacterial genomes (>97%), with Illumina mapping to every base. Both 454 and PGM sequencing datasets generate orders of magnitude more InDels than Illumina sequencing with a slightly reduced number of SNPs. However the lower overall coverage of the genome may be partially responsible for the decrease in SNP generation. Ion Torrent generates more even coverage of the genome compared to 454 and is capable of multiplexing 2‐4 samples, as opposed to 454 GS Jr.  

K‐mer based assemblers are not recommended to assemble 454 or Ion Torrent reads. Newbler assemblies generate coverage of the genome similar to those Velvet assemblies generated for Illumina reads, and much improved when compared to the Velvet assemblies of the same data sets. The limitation of 454 GS Junior yielding up to 100,000 reads per run also indicates that it is unlikely to generate sufficient coverage for most of the work outlined here. 

Page 65: Technical and Operational Assessment of Genomic Sequencing Platforms

64 

From this study, we conclude that Illumina has more even coverage and can generate better information about strain level variants than either of the other two discussed platforms. Use of Newbler (or potentially MIRA) for 454 or PGM reads has been shown to be able to generate assemblies that are highly similar to those generated by Velvet for Illumina data. In essence, there are distinct advantages and disadvantages to each platform, with the need of the user driving decisions to utilize the most advantageous platform for their use. For amplicon sequencing or read‐based mapping, reducing the number of InDel errors is more important than for those analysis pipelines requiring assembly, when the majority of InDels are corrected. These observations are in line with those made in recent comparisons between sequencing platforms performed by the Sanger institute and at the Beijing Genome Institute [56, 57]. 

Pacbio sequencing and analysis

For each sample 8 SMRT‐cells were sequenced and analyzed using both Pacbio‐provided and standard analysis tools. In all cases, Pacbio reads were able to cover 100% of the genome with similar numbers of SNPs and InDels as the PGM or 454 read sets. Assembly of PacBio reads was not performed. 

Sequencing of mixed samples

Methods

To mimic expected loads of pathogens in blood and sputum, samples of human blood and human sputum were spiked with several pathogens, at varying ratios of cells/viral particles. These ratios reflect biologically relevant levels of these pathogens in their respective sample types. DNA from these samples was extracted and sequenced. Sequencing was performed using one lane each of HiSeq (2×100 bp reads). Read‐mapping based analysis was performed on these reads to determine if the pathogens present in the sample could be reliably detected. 

Results

Less than 0.0001% of the reads generated were mapped to a pathogen, yielding negligible coverage of any targeted genome. Table 24 shows the read mapping results from three blood samples spiked with Yersinia pestis and Bacillus anthracis 

Organism Blood Sample #1 Blood Sample #2 Blood Sample #3 Yersinia pestis (# Spiked) 102 103 104 Bacillus anthracis (# Spiked) 104 103 102 Reads Generated ~ 300 Million - - - Number of Reads Mapped - - - Yersinia pestis 25 57 568 Bacillus anthracis 788 66 7

Page 66: Technical and Operational Assessment of Genomic Sequencing Platforms

65 

Table 24: Detection of pathogens from blood samples.

Conclusions

Due to the low levels of available sequence, it is not possible to perform most analyses on these mixed samples. Using current DNA preparation methods, sequencing of pathogens from human samples is not sensitive enough to give reliable answers for diagnostics. There are several methods of preparation that would increase signal‐to‐noise ratio but all are currently in states of less than TRL‐4.  

With current throughputs and time constraints, the only platform capable of generating sufficient depth of sequencing coverage to detect pathogens from human background, without application of pre‐sequencing methods to remove this DNA would be the Illumina MiSeq.  

    

Page 67: Technical and Operational Assessment of Genomic Sequencing Platforms

66 

Appendix 5: Survey to Sequencing Centers and Platform Vendors

Survey to Sequencing Centers

 

Page 68: Technical and Operational Assessment of Genomic Sequencing Platforms

67 

 

Page 69: Technical and Operational Assessment of Genomic Sequencing Platforms

68 

Respons

Sample

Sample s

The goal oascertain ha large numof samplesboth. 

Of the 12 c23). The rethemselve

Figure 23:

Sample

The seconRespondentypes. In thsample typprocess it 

When askeindicated tcenters pradditional by their losample pre

0

2

4

6

Contin

ses by Seq

handling

source

of the first quhow many omber of smas from one o

centers polleemaining cenes with nearl

Source of sa

types

d and third qnts were ablhe distributepes and Quebecame clea

ed about thethat there wocess non‐vpaperwork cation, theireparation.  

nual Stream, 1-

quencing

uestion, “Whf the centeraller projectsor two facilit

ed, only onenters either y half of the

amples for se

questions inle to answered form of thestion 3 abouar that these

e types of sawas in fact a giable nucleicload and ethr goals and in

-2 Facilities/Lo

Centers to

hat is the sos focused ons. Respondeties, (b) all ne

e received alprocessed seir incoming 

equencing ce

quired abour (a) usually, he questionnut sample tye two questi

amples that tgreat diversc acids, withhical considentents for th

ocales All N

o Survey Q

urce of the mn a small numnts were abew or small 

l or the bulksamples fromsamples arr

nters.

ut the types (b) occasionnaire, Questypes handledons should b

they receiveity in the sam the exceptierations). Prhe sequence

New/Small Proj

Question

majority of ymber of longble to chooseprojects, or 

k of their samm independeriving from o

of samples rnally, or (c) ntion 2 asked d even occasbe handled i

ed and handmples proceion of humarocessing of e data, and t

jects

your sampleg term projee from (a) a c(c) a nearly 

mples from 1ent projects one or two s

received andnever for ea about commsionally. Durin parallel. 

led, answersessed (Figuren samples (wwhole samphe facilities 

Bot

es,” was to ects as oppocontinual streven mixtur

1‐2 sources (or found ources. 

d handled. ch of eight smonly procering the surv

s were variee 24). Most owhich carry ples varies gravailable fo

th

sed to ream re of 

(Figure 

 

sample essed vey 

ed but of the an reatly r 

Page 70: Technical and Operational Assessment of Genomic Sequencing Platforms

69 

Figure 24:

Nucleic

Question 4processingdegradatioorganismseukaryote

All of the 1doing so reoccasionalat transcri

Figure 25:

Sample t

As sample asked “whInformatioprocesses encompasExcel for ehuman eff

Cl

Mic

Euk

Human

En

Cl

Mic

Euk

Human

EnSa

mp

les

.P

uri

fied

NA

02468

1012

Types of sam

acid type

4, “Do you hg. Generally on and must and/or gens and bacter

12 centers suegularly (Figlly, with 10 option studie

Prevalence

tracking

tracking andhat type of LIon Managemto enable ms a few samexample), hofort to maint

0%

linical

Isolat.

Isolat.

n Cells

nviron

linical

Isolat.

Isolat.

n Cells

nviron

D

mples proces

(DNA or R

andle DNA ospeaking RNt be convertees present inria, or will be

urveyed proure 25). Simof 12 doing ses. 

of DNA vers

d managemIMS or sampment Systemmore compleples such traowever doingtain. 

25%

DNA

sed by differ

NA)

or RNA?” attNA is slightly ed to cDNA n a sample, e to determi

cessed DNAmilarly, all buso regularly.

sus RNA pro

ent are integple tracking s, is a databate tracking. acking can bg so can quic

50%

rent sequenc

tempts to dimore difficuprior to sequwhile RNA wine the sequ

A samples at t one center The RNA se

ocessing at s

gral operatiosystem do yoase designedIf the procebe done in a ckly become

%

ing centers

scern the prult to procesuencing. DNwill either reuence of RNA

least occasir processed equencing ho

equencing ce

ons to any seou use?”. A d to integratedures used dspreadsheete intractable

75%

RNA

revalence ofss as it is moNA will tell theveal the expA viruses.  

onally, with RNA sampleowever was 

enters.

equencing cLIMS, or Labe with standdo not vary t based fashe and require

100%

Usua

Occa

Nev

 

f DNA versusore sensitivehe analyst thpressed gene

10 of the 12es at least primarily ta

center, questboratory dard laboratoand only hion (Microse a great dea

ally

asionally

ver

Occasiona

Regularly

s RNA  to he es of 

argeted 

 

tion 5 

ory 

oft al of 

ally

Page 71: Technical and Operational Assessment of Genomic Sequencing Platforms

70 

All centers tracked sample receipt and processing, with all but one using a LIMS to do so (Table 25). Over half of those surveyed utilized a commercially available system (with one exception, no two centers used the same vendor), four used an in‐house developed system, and one center relied solely on spreadsheet‐based tracking. 

LIMS Type Count In-house developed 7 Commercial 4 Neither/No LIMS 1

Table 25: Sample tracking method used by sequencing centers.

Initial sample processing

In an effort to determine if there was a standard set of steps taken at the arrival of a sample, question 6 asked “when a sample comes in what are the first steps taken?”  

Upon receipt of samples, all groups agreed that the most important steps were to ensure that full sample information was logged into the tracking system in use, including external QC (when available), applicable biosafety documentation and any metadata available. Because all answers were simple, direct and in agreement with the stated question there was little discussion on this point. 

Incoming sample standard protocols

Question 7 attempts to determine what standard protocols and methods are applied to all or most samples upon arrival at a given sequencing center. The question was worded in a rather open‐ended way and often interpreted as “what do you routinely do when a sample arrives?” 

Depending on the center, available metadata for the samples were either entered into the LIMS prior to or upon sample arrival. All centers generated their own QC of each incoming sample, with the occasional exception for small "precious" samples, where insufficient material was received to run both QC and library preparation (Table 26). Internal sample QC generally included a measurement of nucleic acid concentration (Qubit or other fluorometric method most common) and quality (agarose gel or BioAnalyzer profile). Depending on the analysis plan some utilized qPCR as well. 

Those handling clinical samples often de‐identified them at this stage to comply with ethical guidelines, as well as recording whether the samples had been stabilized with a chaotropic agent. Such actions agree with the overall mission of a given center (routine sample processing and sequencing versus rapid pathogen identification). 

Answers Yes? Sample QC 12 Metadata accumulation 11 Add to freezer management system 12

Table 26: SOP for incoming sample handling.

Page 72: Technical and Operational Assessment of Genomic Sequencing Platforms

71 

Incoming

Centers imgoal of thissamples, athey procewas simplypossible an

Of the 12 cthose centspecificatiothose specsequencinclinical samtimes the g

In contrastclinical samthat was uthe stringequite expli

Figure 26:

Figure 27: processing

0

2

4

6

0

0.5

1

1.5

2

2.5

3

3.5

0.

Inco

min

g Q

C

Str

inge

ncy

g sample r

mpose a varies question wand sees howessed (informy worded “dnswers bein

centers survters withoutons (concencifications – g processes mples (CDC agoal of the s

t, those centmples, had sunlikely to beency of the iicit (Figure 27

Enforcemen

Relative cor

Stric

.5

requiremen

ety of stringwas to both aw this strictnmation gleano you imposg (a) strict, (

veyed about  guidelines, tration, masgenerally wmay or mayand CII), no rsequencing w

ters dedicatetrict rules the successfullncoming sam

7). 

t of incomin

rrelation betw

ct

1

Fre

nts

encies on inascertain theness correlatned from disse rules upo(b) guideline

half imposewhile they ass, moleculaith the expliy not succeerules were imwork was to 

ed to sequehat were imply sequencedmple guideli

ng sample han

ween incomi

G

1.5

equency of In

coming same strictness ated with the scussions dun sample haes, or (c) non

ed guidelinesasked that inr weight, etccit understad. For the cemposed on tshow that n

ncing genomposed and dd. This distinnes was not

ndling/QC r

ing sample Q

Guidelines

2

ncoming Cli

mples, based and enforceproportion ring an earliandling durinne. 

s on incominncoming samc.), samples anding that tenters most the incominnothing coul

mes and samid not allownction betwet quantified 

rules.

QC and frequ

2.5

inical Sampl

largely on tement of ruleof rapid ID/ier questionng processin

ng samples (mples conforwould be acthe library pfamiliar witg sample qud be sequen

mples for assw for receipt een the goalbut in relativ

uency of clin

Non

3

les

heir missiones for incomclinical samp). This questng?” with the

Figure 26). Frm to qualityccepted outreparation ah accepting uality. In factnced from it

embly, but nof any sampl of the centve terms wa

ical sample

ne

3.5

n. This ming ples tion e 

For y side of and 

t, at .  

not ple er and as 

 

 

5

Page 73: Technical and Operational Assessment of Genomic Sequencing Platforms

72 

Incoming sample processing time

The turnaround time, or time from sample receipt to data availability, differs in importance based on the project type being discussed. Question 9, “how much time does it take an average sample, from delivery, to enter library preparation?” attempts to ascertain what a normal time frame is from all centers surveyed. This question does not address the time required to QC the samples, prepare the libraries or sequence those libraries; only the time between receipt and the initiation of processing 

One‐third of the sequencing centers surveyed began processing samples within one day of receipt with the remaining two‐thirds generally beginning library preparation between 1 and 8 weeks of receipt (Table 27). Generally speaking, those with the shortest time spans dealt largely with clinical samples and felt that delaying sample processing may have a negative impact on the health and/or well‐being of another person. Samples with the longest normal time between receipt and processing were often considered routine and that such delays would likely have little negative impact. One center described a particular batch of samples that were delayed approximately one year due to delays in paperwork (data removed from below table and figure) however their normal queue time was measured in weeks not months. 

Time from Receipt to Processing (days) Min 0.2 -1 Max 28 -56 Ave 8.02 -19.4 Std Dev 8.50 -19.9

Table 27: Time (days) a sample normally waits between receipt at a sequencing facility and the initiation of processing.

Sequencing process

Sequencing platforms utilized

Until 2005, the only commercially available sequencing platforms were based on di‐deoxy terminator sequencing (often referred to as “Sanger” sequencing). Since that time, several instruments have been released, each with particular attributes; all of which have vastly greater throughput than the di‐deoxy platforms. In question 1 we asked “which sequencing platforms are utilized in your laboratory space?” The question was asked regarding the most commonly used platforms (PacBio RS, Illumina HiSeq, Illumina MiSeq, Ion Torrent, IonProton, Roche 454 FLX, Roche 454 Jr.), however other responses provided by the respondents were recorded as well. It should be noted that at the time of writing this report, the IonProton platform (the most recently released machine from Ion) has been delivered to two of the locations but not installed.  

By far the most popular NGS chemistry was the one sold by Illumina. Of the 12 centers surveyed 10 had at least one unit on site, and another had access to that technology at an outside location (Table 28, Figure 28).  

 

Page 74: Technical and Operational Assessment of Genomic Sequencing Platforms

73 

NGS PlatIllumina GIllumina HIllumina MIonProton Ion TorrenPacBio RSRoche 454 Roche 454 Sanger SOLiD

Table 28: S

Figure 28:

It should bIllumina vaThese diffe(the oldest

NGS PlatfoGAiiX 

HiSeq 

MiSeq 

Table 29: T

Library p

As with anchanging –their partiGenerally method reThis questpreparatiopreparatioto provideleading to 

02468

1012

tform GAiiX HiSeq MiSeq

nt FLX Jr

Sequencing p

Most comm

be noted thaaries greatlyerences in int) being the 

orm  

Types of Illu

preparation

ny new techn– this is due cular processpeaking theequires someion asked eaon or make mon for all seqe a single ansa re‐coding 

Illumina

platforms uti

on sequencin

at the cost toy, as does thenvestment aleast desira

mina platfor

n modifica

nology, the mto various gss, and by veese methodse testing andach center ifminor/majorquencing plaswer; in factof the respo

L

Onsite 2 7 7 0 7 6 6 1 3 2

ilized

ng platforms

o purchase ae maximumnd output leble, and has

rms utilized

ations

methods forroups experendors releas are painstad modificatiof they “utilizer modificatiotforms, mos fully half ofonses from t

LifeTech Ion

Of1 2 1 0 1 1 0 0 0 0

utilized.

and operate throughput ead to altern seen here t

Onsite2 

at various se

 preparing lirimenting wising and re‐aking, and won before me the manufons for an intst of the respf the centersthe original o

P

ffsite

the three di from a givenate uses of the least com

equencing ce

ibraries fromith protocolsreleasing kit

without a quemoving it intofacturer’s prternal SOP?pondents wes affirmed twoptions. 

PacBio RS

Delive0 0 0 2 0 0 0 0 0 0

ifferent platfn sequencinthe platformmmonly utili

Offsite 1 

enters.

m nucleic acis to find wayts for libraryestion the mo productionrotocols for l” As this queere uncomfowo answers r

R

ered

forms offereng run on eams, with the zed (Table 2

ids are constys to optimiz preparation

most robust n in a new selibrary estion coverortable or unrather than 

Roche 454 

ed by ch. GAiiX 

29).  

tantly ze for n. 

etting. 

red nable one, 

Page 75: Technical and Operational Assessment of Genomic Sequencing Platforms

74 

Most of thmajor modeither follochanges.  

Figure 29:

Frequenc

The continforces eacpreparatiosequencinbecome ou

Of the seqtesting newcenters, an30). One‐tshortly aftmentionedBroad Instupdate the

Finally twolargely dueaccepted fof each ste

Figure 30:

0

2

4

0

2

4

6

8

he respondendification to owed the pr

Customizat

cy of librar

nuous changh center to don and sequeg methodoloutdated. 

uencing cenw reagent kind those knohird of the rer the relead that they fitute’s releaeir processe

o teams, bote to the factfor the diagnep. 

Frequency o

As written

Rarely

nts (66%, Figthe protocootocols exac

ion of protoc

ry SOP rev

es in protocdetermine hencing runs.ogies is quite

nters surveyeits and protoown for sequrespondentsse of a new followed proase of a new s). 

th at the CDC that they cunosis of hum

of protocol an

As w

y

gure 29) saidols provided ctly as writte

cols from tho

ision

ols and avaihow often th This continue costly; how

ed, one‐half ocols. Respouencing larg said that thcommercialotocols releaprotocol oft

C, said that turrently havman disease. 

nd reagent t

written or min

Ever

d that their cby reagent/en by the ve

ose provided

lable reagenhey will revisual investmewever witho

said they haondents withge numbers ohey tested nely available ased by otheten prompts

they rarely ae highly robTo change t

esting

nor

ry few month

center made/kit vendors.ndors or ma

by vendors.

nts for prepasit and/or reent in researout this, an e

ad a dedicath testing teaof samples oew SOP andkit or publiser sequencins two other c

altered theirbust systemstheir system

Minor

hs

e either mino. The remainade only occ

aring and sevise their SOrch and deveentire center

ted team thams tended ton a continukits every fehed protocog centers (focenters surv

r operating ms that are vals would req

Mino

Contin

or or minor ning 4 centeasional mino

quencing saOP for both lelopment ofr can quickly

at was continto be the laral basis (Figuew months, ol. Most of tor example,veyed here t

methods. Thlidated and uire a revali

or or major

nually

to rs or 

mples library f the y 

nually ger ure often hese the o 

is is 

dation 

 

Page 76: Technical and Operational Assessment of Genomic Sequencing Platforms

75 

Desired microbial genome coverage (by platform)

The goal of this question was to determine what level of coverage each center used in assemblies of microbial genomes. Unfortunately the question was worded a bit ambiguously, “provide normal values you see or aim for on each platform utilized in your facility.”  

Of the centers that routinely assemble microbial genomes, all eight used the Illumina platforms as their primary data set (Table 30). Of those, most (75%) aim for 50‐100 fold genome coverage with Illumina data, 1 aims for 300 fold coverage and the last only 15‐30 fold; however this low coverage outlier only generates reference‐based assemblies and so requires less data input. Three of the centers routinely generated PacBio data to assist in scaffolding of the assembled data, and aimed for between 20 and 50‐fold genome coverage. In contrast only two centers routinely generated Ion Torrent data for genome projects and their desired coverage varied greatly (20 versus 200‐fold genome coverage). Finally only one center still routinely generates Roche 454 data for microbial genomes, aiming for 25‐fold coverage. We should mention that as newer methods (including long insert library preparation for the Illumina platform) have become available, 454 data has become less commonly generated. 

Platform Coverage Aimed for # Centers Illumina 10* 1

15-30** 1 50-150 6 300 1

PacBio 20-50 3 Ion Torrent 20 1

200 1 Roche454 25 1

Table 30: Desired Genome Coverage by Platform. *Human genome sequencing uses reduced coverage to account for size/cost issues as well as look for SNPs to reference. **Reference based assemblies that look for difference with validated reference as opposed to de novo or from-scratch assemblies which require more data.

The centers polled which did not routinely generate de novo microbial assemblies had noteworthy comments. For example, CII does not generally assemble genomes but will often generate 1‐ to 75‐fold genome coverage using Roche 454 to map to references, looking for SNP changes. Also the Influenza group at the ECBC is still using di‐deoxy based sequencing as its main platform, this is due to the fact that there are highly robust sequence‐specific PCR primers to determine differences in the viral genome which are well suited for sequencing on the lower throughput platform. 

Library preparation automation

Initially this question aimed to determine the number of total and human hours required for library preparation and sequencing. However as it became clear that the times required varied little (with the exception that large insert libraries tended to take 3 days as opposed to just 1 day for short insert libraries), the query became more to determine how many centers utilize an automated or robot‐driven library preparation system. Library preparation for the other (non‐

Page 77: Technical and Operational Assessment of Genomic Sequencing Platforms

76 

Illumina) Nextensive 

The Sciclonpreparatioamount ofthat said tspecificallythey empl

The time igenerally otime is quipreparatiolibrary preinput. 

Figure 31: Cprocess.

Library ty

There are (either sinsurveys genot suitabanalysis. Hlibrary typwhile the linsert datapreparatio

Of the 12 c(Table 31)reads gene

 

0

2

4

6

8

NGS platformand long eno

ne by Calipeon process. Itf manual houhey used any stated theyoyed). 

nvolved in pone to two dite labor inteon, also quiteeparation is g

Comparison of

ypes prepa

generally twgle‐ended oenerally onlyle for long inHowever, if tes are desirelong‐insert da can be genon process w

centers polle. An alternaterated by th

ms was largeough for a v

er was the mt is an automurs required automatedy used this s

preparing shodays, where ensive. This te labor intengenerally tw

f sequencing

ared

wo types of lir short‐insery utilize standnsert and thehe goal is toed; the shordata is used nerated to a with more str

ed, only 7 evte approach e PacBio RS 

 

Manual

ely considereendor to de

ost commonmated liquidd to prepare  library prepsystem (the o

ort‐insert ormultiple samtime generansive. The ovwo to three d

centers gener

ibraries thatrt pairs) anddard data see extra efforo assemble art‐insert datato help scafflesser fold cringent inpu

ver make lonto scaffoldiplatform, so

ed a manual velop an out

nly impleme handler thaIllumina Truparation for other center

r standard libmples can beally reaches tverall time redays, howeve

rating Illumin

t can be prodd long‐insert ets, both becrt in producia single genoa at high covfold or pull tcoverage butt requireme

ng insert datng or bridginomething us

process, as t‐of‐the‐box

ented methoat was specifuSeq librarieIllumina seqr simply did 

braries for ae processed three to fouequired for er very little

na libraries us

duced on andata. Metagcause the teing the data ome or enricverage for dethe shorter ct does requients.  

ta on the Illung contigs tosed by 5 of th

A

adoption hax system for 

od of automafically designes. Of the sevquencing (Fignot mention

ny of the NGat a single tr days for loan automate of that time

sing a manual

ny NGS platfogenomic or tmplate matwould not a

ched metageepth and qucontigs togere a more in

umina or Rocogether is tohe centers. 

Automated

as not been them. 

ating the libned to reducven laboratogure 31), six n which syst

GS platformstime, and thong insert libed standarde requires hu

l or automate

orm, standatranscriptomerial is geneaid in the finenome, bothality is usefuether. The lonvolved libra

che platformo use the lon

rary ce the ories 

em 

s is at brary  uman 

 d

rd mic erally nal h ul ng ary 

ms ng 

Page 78: Technical and Operational Assessment of Genomic Sequencing Platforms

77 

Library Types Regularly Occasionally Ever Shotgun/Short-insert 12 0 12 Long-Insert (>7kb) 6 1 7 Long Read (PB) 4 1 5

Table 31: Prevalence of long-insert library preparations among sequencing centers.

Staff training

Training required for incoming staff

Here we asked each sequencing center their baseline requirements for new hires into a sequencing laboratory setting. It should be noted that the individuals discussed here are responsible for sample receipt, QC, library preparation and sequencing runs but not for any bioinformatics (data transfer, data QC, analysis, assembly, etc.). 

Of the 12 centers queried, all had very similar responses. All labs hire those with at least an Associate degree (AS) and most have a minimal requirement of Bachelor’s degree, BS; though a few required all new hires to hold a Master’s degree (MS). Few labs (2) with longer‐term projects still have technicians from the "early Sanger days" with only a high‐school education, but those individuals have years of experience and training. Finally, several centers stated that they often brought in high‐school or college students to work alongside their full‐time staff as a means of outreach and training but would not allow those individuals to handle the sequencing equipment unsupervised.  

 

 

Page 79: Technical and Operational Assessment of Genomic Sequencing Platforms

78 

Survey to NGS Vendors

 

Page 80: Technical and Operational Assessment of Genomic Sequencing Platforms

79 

Responses by NGS Vendors to Survey Question

General questions

Normal anticipated read- length

Short read length is the number one complaint about NGS platforms by those who analyze and assemble the data. As such the first question posed to the vendors asked: “what is the “normal” length of reads that could be expected off your platform? 

Early NGS platforms often offered read lengths of 10‐30bp, however current technologies no long experience such limitations. Standard reads on most of the major platforms in use exceed 200bp in length (a 2×100bp read has an insert of know size in the middle but 200bp of sequence), and one is now on par with “standard” di‐deoxy reads (Table 32). 

Platform Current Read Lengths Anticipated Read Lengths Ion Torrent 1×300bp 1×400bp IonProton 1×200bp 1×200bp MiSeq 2×250bp 2×250bp HiSeq 2000 2×100bp 2×100bp 454 Jr 400-500bp 400-500bp 454 FLX+ 500-1000bp 500-1000bp

Table 32: Current and anticipated read lengths from major NGS platforms.

Normal anticipated read count

While the first generation of sequencing provided utilized 96‐ and 384‐well plates, presumably providing one sequence per well, current platforms have a much greater throughput. This question asked each vendor what the specifications for their platform(s) would provide in terms of read count by asking: “what is a “normal” number of reads to be expected from a single unit of your sequencer?” 

As shown in Table 35, current NGS platforms provide between 100 thousand and 4×109 reads per run (the Illumina HiSeq generates up to 5×108 reads per lane with 8 lanes available per run). 

Platform Setting Expected Reads Ion Torrent Ion Torrent

Ion 314 Chip >1×105 Ion 316 Chip >1×106 Ion 318 Chip ~3×106

IonProton Ion PI Chip ~ 5×107 Ion PII Chip ~ 2×108 Ion PIII Chip 1.2×109 wells, reads TBD

MiSeq 2×150bp ~ 3×107. [58] HiSeq 2000 2×100bp ~ 3×1012 per flowcell [59] 454 Jr n/a ~ 1×105 454 FLX+ n/a ~ 1×106

Table 33: Expected number of reads generated per run on NGS platforms.

Page 81: Technical and Operational Assessment of Genomic Sequencing Platforms

80 

Current and Future Protocols and Directions

Available protocol types available

While single ended reads often form the basis and depth of coverage in any genome assembly, those often form multiple contigs rather than whole genomes. Therefore libraries, often painstaking to make, with “long inserts” are created. These inserts are of a known length and help to bridge together or scaffold distinct contigs together. The question asked of the vendors was: “what current protocols are in place for your platform(s)?” Currently all platforms support, in some fashion, these long‐insert reads (Table 36). 

Platform Single-End Mate-Paired Paired-End Comment Ion Torrent Kit available from

vendor Ion Community demonstrated, no formal kit

Ion Community demonstrated, no formal kit

Supports all library preparations

IonProton Kit available from vendor

Ion Community demonstrated, no formal kit

Ion Community demonstrated, no formal kit

Supports all library preparations

MiSeq Kit available from vendor

Kit available from vendor

Kit available from vendor

HiSeq 2000 Kit available from vendor

Kit available from vendor

Kit available from vendor

454 FLX+ Kit available from vendor

Unknown Kit available from vendor

Table 34: Current library preparation methods available

Anticipated protocol releases

The capabilities of sequencing technologies are known for rapid changes, not surprising as decreases in the costs for sequencing DNA has exceeded Moore’s Law (Figure 32). As such each vendor was asked two questions to determine anticipated protocol releases in the next 6 months as well as in the next 12‐18 months. From those vendors that did respond, the answers were encouraging and suggest longer read lengths with fewer labor hours to produce data (Table 37). 

 Figure 32: Cost of sequencing by Mb of DNA, from www.genome.gov/sequencingcosts.

Page 82: Technical and Operational Assessment of Genomic Sequencing Platforms

81 

 

Platform Updates in next 6 months

Updates in next 12-18 months

Other planned updates

Ion Torrent Same as above but up to 400bp read lengths should be in production end of 2012

No public disclosure of protocol changes beyond 6 months

IonChef – fully automated template preparation and chip loading instrumentation (library in, sequencing ready-chips out) available first half of 2013

IonProton Isothermal template preparation (e.g. Avalanche) for simpler and more rapid clonal amplification of libraries

No public disclosure of protocol changes beyond 6 months

IonChef – fully automated template preparation and chip loading instrumentation (library in, sequencing ready-chips out) available first half of 2013

MiSeq No survey response No survey response No survey response HiSeq 2000 No survey response No survey response No survey response 454 Jr Not mentioned Undetermined at this time Automation of the library

preparation process and expanded read lengths

454 FLX+ Long amplicon sequencing

Undetermined at this time Read lengths of up to 1000bp

Table 35: Anticipated updates to protocols

Library Preparation and Sequencing Run

Time required to prepare library

The first question asked “how many hours do you estimate it takes to prepare your standard library?” This question assumes that the user is only purchasing the kits and reagents from the platform vendor and is following the instruction as written by that manufacturer. The responses in the following table (Table 36) may have caveats such as “with enzymatic shearing” which will extend the overall time required for the preparation process even if they do not require human interaction during those times. Only the “fragment” or standard libraries and RNA libraries are shown, as those are generally the shortest and longest time requiring processes. 

Vendor Fragment Libraries RNA libraries LifeTech 2 hours, with enzymatic shearing 6 hours Illumina No survey response No survey response Roche 4 hours 6 hours

Table 36: Time required for standard library preparation.

Training required prior to library preparation

The preparation of sequencing libraries can range from simple and straight‐forward to complicated and problematic. Often the standard library preparations are mastered quickly by experienced technicians, while long‐insert libraries may take weeks or more to troubleshoot. In this section we asked each vendor “how much training do you estimate to be required for an experienced technician to become proficient in your library preparation?” The assumption was that the libraries in preparation would be of the “standard” variety. 

Page 83: Technical and Operational Assessment of Genomic Sequencing Platforms

82 

Of the two vendors that responded only one answer was provided. Roche indicated that training for the library preparation should take one day for the process to be mastered, while LifeTech simply suggested that as their techniques are “standard relative to other NGS competitors so [they] expect the library training time to be comparable to other systems/platforms.” 

Library reagent cost

The preparation of standard (shotgun or short insert) generally takes about one working day to complete (as suggested in Table 37). This question asked “how much would you estimate the reagents for a single sample library preparation to cost?”  

Generally a single library preparation utilizes reagents costing between $50 and $150 per sample to prepare. However, as shown in the following section, the material does not exit the library process ready to load onto a sequencer. 

Vendor Fragment Libraries Amplicon Libraries RNA libraries LifeTech $50 $125 $83 Illumina No survey response No survey response No survey response Roche $130 No survey response $130

Table 37: Material and Supply costs per library preparation.

Batch library preparation

Laboratory automation is an industry in itself, with specific journals and conferences [60, 61]. This industry has worked to improve efficiencies and reduce both repetitive stress injuries as well as human induced errors into common processes. In fact after discussion with LifeTech and Roche, followed by a review of the Illumina documentation, all of the platforms discussed in this section offer an automated system to prepare libraries for sequencing (Table 38). The throughput of those systems ranges from 5‐46 libraries per day, surpassing the throughput of laboratory workers. 

Vendor Automatable Max Daily throughput LifeTech Yes 26 libraries/day Illumina Yes (3rd party vendor) 46 libraries/day, 288/week* Roche Yes (3rd party vendor) 5 libraries/day

Table 38: Library preparation automation and throughput.*As no response was received from Illumina or Caliper, this response was from Lance Green at LANL, where a SciClone is installed and in use.

Steps between library preparation and sequencing run

As indicated earlier in the section, there are generally processing steps required between the library preparations and beginning a sequencing run. Often this part of the process involved clonal amplification of the libraries, the goal to increase the signal so that the detection system on the sequencer can register it. The amplifications can take as little as 5 hours and as much as 1½ days (Table 39). 

   

Page 84: Technical and Operational Assessment of Genomic Sequencing Platforms

83 

Platform Step(s) Estimate Time Ion Torrent Template preparation for clonal amplification on IonSphere particles 6 hours IonProton Template preparation for clonal amplification on IonSphere particles 6 hours MiSeq Processed on the sequencer, accounted for in sequencing run time [58] 0 hours HiSeq 2000 Cluster generation (amplification) on cBot [59] 5 hours 454 Jr & FLX+ Emulsion PCR (emPCR) for clonal amplification 1.5 days 454 FLX+ Emulsion PCR (emPCR) for clonal amplification 1.5 days

Table 39: Steps required between library preparations and sequencing run.

Sequencing run time

NGS sequencing platforms vary greatly in the time required to generate data, and depending on the application speed of data acquisition may not be of great importance. The question “how many hours do you estimate it takes to run your sequencing platform?” intended to provide a succinct review of the run times required for each platform. 

The most rapid sequencing platform considered here is the Ion Torrent, which can generate 1×105 to 8×106 200bp‐reads (depending on the sequencing chip used) in about 3 hours, followed closely by the MiSeq (Table 40). The longest run times are found with the HiSeq system, where each base added takes just under 1 hour, so a 2×100 bp run (200bp total) takes 10 days to complete. 

Platform Normal Run Time Ion Torrent 3 hr (varies by chip, assuming 200bp reads) IonProton 21 hr MiSeq 4-39 hr (varies by read length) [58] HiSeq 2000 10 days (2×100 run) [59] 454 Jr 10 hrs 454 FLX+ 23 hrs

Table 40: Time for sequencing run to complete.

Training required prior to NGS platform operation

As a proxy for difficulty in running a sequencing platform, we asked each vendor “how much training do you estimate to be required for an experienced technician to become proficient in running your sequencing platform?” Theoretically a more difficult system would take longer to train new users on, however the general response (Table 41) was a 1‐2 day training session. 

Vendor Estimated Staff Training LifeTech 2 days instruction Illumina No survey response Roche 1 day instruction

Table 41: Training required for staff proficiency on sequencing platforms.

Sequencing reagent cost

Just as the library preparations take various amount of time and reagents to prepare, the runs on different sequencing platforms differ in costs. Prices listed here reflect the direct cost of the reagents, without taxes or handling fees (Table 42). 

Page 85: Technical and Operational Assessment of Genomic Sequencing Platforms

84 

Platform Estimated M&S Cost/Run Ion Torrent $350-$750 (varies by chip) IonProton $1000 MiSeq No survey response HiSeq 2000 No survey response 454 Jr $1100 [62] 454 FLX+ $3600

Table 42: Reagent cost for a standard sequencing run.

Data Handling Requirements

Manual data transfer (sequencer to server)

The first question concerns the amount of effort involved in the transfer of data from the sequencer itself to a place where an analyst can access it. Initially this was a manual task however at this point all major platforms now have automated means to deal with this issue (Table 43). 

Vendor Manual Processing for Data Transfer LifeTech None, customer created scripts to transfer FASTQ/BAM files from servers Illumina No survey response Roche None, data transfer process is automated.

Table 43: Manual processing required for data transfer from sequencer to local servers.

Required hardware investment

Another issue with the amount of data produced by these sequencing platforms involves the acquisition of additional computational hardware to handle the data. As shown in the table below (Error! Reference source not found.), some vendors are attempting to include server hardware in the initial purchase package and others simply provide guidance as to the necessary amount of computational power needed. 

Platform Required Hardware Investment Ion Torrent PGM includes the Ion Torrent Server to support primary analysis through FASTQ/BAM file

generation and on-server variant calling IonProton PGM includes the Ion Torrent Server to support primary analysis through FASTQ/BAM file

generation and on-server variant calling MiSeq No survey response HiSeq 2000 No survey response 454 Jr Roche suggests using the guideline of 4 bytes RAM per input base processed. 454 FLX+ A Z800 system is included with the FLX and capable of processing most needs. Suggests user

plan for 4bytes of RAM per input base, Roche has used a workstation with 256GB RAM to assemble the human genome.

Table 44: Required hardware investment (outside that included with the platform purchase).

Amount of data generated

With the differences in read count, run time, and other factors described above it is not surprising that each platform provides a different amount of output data per run (Table 45). Of course greater data outputs provide increased read depth but also increased difficulty in transferring data 

Page 86: Technical and Operational Assessment of Genomic Sequencing Platforms

85 

(both from the sequencer to the server as well as to collaborating institutions) and analyzing it. Often, especially for high data generating platforms such as the Illumina HiSeq 2000, a single run may be split into >700 libraries. This adds computational time to pull the data apart but also increases the efficiency of the system. 

Platform Setting Expected FASTQ File Size Ion Torrent Ion 314 Chip 0.3GB

Ion 316 Chip 1.0GB Ion 318 Chip 2.4GB

IonProton Ion PI Chip 30GB Ion PII Chip ND Ion PIII Chip ND

MiSeq 2000 1×36bp [58] 540-610Mb 2×250 [58] 7.5-8.5GB

HiSeq 1×35bp [59] 47-52GB 2×50bp [59] 135-150GB 2×100bp [59] 270-300GB

454 Jr No survey response No survey response 454 FLX+ 500-100bp reads 60GB

Table 45: Amount of data (in GB) generated per full run. ND = Not Determined

Included data analysis software

As each type of sequencing data generated comes with distinct error profiles [63], it has become common for vendors to provide some analysis software with their sequencing platforms to help aid in data analysis. With the question “what types of data analysis software is included with your platform?” we gave each vendor a chance to list off the computer programs they provide (Table 46). 

The follow on question asked how much time each vendor expected to be required for training an experienced bioinformatician in their software. Of the vendors that responded, the consensus was 1‐2 days, often included in the overall training session (Table 47). 

Vendor Data analysis Software Included LifeTech On-system variant calling capabilities along with variety of other Ion and user developed

“apps” in the Plug-In Store. Offer Ion Reporter, a pay-per-use cloud-based software resource for variant calling, visualization of variants and report-out

Illumina No survey response Roche 454 Assembler, Mapper, Amplicon analysis, HLA plug-in, Remote Desktop software,

Documentation and firmware to run the instrument and convert data from raw to human readable.

Table 46: Data analysis software included with platforms by vendor.

Vendor Estimated Staff Training LifeTech 2 days instruction (included with operation instruction, see 4.7) Illumina No survey response 454 Jr 1 day

Table 47: Training required for bioinformatics associated with data handling.

Page 87: Technical and Operational Assessment of Genomic Sequencing Platforms

86 

Costs

Estimated initial startup cost

Initial costs to set up a laboratory can be substantial. The first question of this section asked each vendor to estimate the initial cost of the sequencing platform, required hardware and any other initial startup costs associated with their platforms (Table 48). For the Illumina platforms, values were gleaned from news articles published near the time of those platform’s official release. 

Platform Sequencer Costs Computer hardware Other costs Ion Torrent $66K Included with sequencer Ion OneTouch 2 System $19K

Ancillary equipment ~$10k IonProton $225K Included with sequencer Ion OneTouch 2 System $19K

Ancillary equipment ~$10k MiSeq $125K [64] No survey response No survey response HiSeq 2000 $690K [65] No survey response No survey response 454 Jr $98K Not released in survey Not released in survey 454 FLX+ Not released in survey Not released in survey Not released in survey

Table 48: Initial startup costs for each sequencing platform.

Long- term operational costs

The final question asked in the survey attempted to discern long‐term operating costs of each sequencing platform, by asking “what other long‐term operational costs should a new user anticipate?” Generally speaking the vendors responded with service contracts to maintain the sequencers and help troubleshoot and/or repair any malfunctions that might occur (Table 49). 

Platform Additional Costs Ion Torrent 2nd year service contracts range from $4.3 - $14K depending on level of service IonProton 2nd year service contracts range from $7.5 - $33K depending on level of service MiSeq No survey response HiSeq 2000 No survey response 454 Jr 2nd year service contact of $12.6K 454 FLX+ Not released in survey

Table 49: Additional long-term operational costs.

 

   

Page 88: Technical and Operational Assessment of Genomic Sequencing Platforms

87 

References Cited

1.  Abed, Y. and G. Boivin, New Saffold cardioviruses in 3 children, Canada. Emerging infectious diseases, 2008. 14(5): p. 834‐6. 

2.  Allander, T., et al., Cloning of a human parvovirus by molecular screening of respiratory tract samples. Proceedings of the National Academy of Sciences of the United States of America, 2005. 102(36): p. 12891‐12896. 

3.  van der Hoek, L., et al., Identification of a new human coronavirus. Nature medicine, 2004. 10(4): p. 368‐73. 

4.  Scholz, M.B., C.‐C. Lo, and P.S.G. Chain, Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis. Current Opinion in Biotechnology, 2012. 23(1): p. 9‐15. 

5.  Ahmed, S.A., et al., Genomic Comparison of Escherichia coli O104:H4 Isolates from 2009 and 2011 Reveals Plasmid, and Prophage Heterogeneity, Including Shiga Toxin Encoding Phage stx2. PLoS ONE, 2012. 7(11): p. e48228. 

6.  Minot, S., et al., Rapid evolution of the human gut virome. Proceedings of the National Academy of Sciences, 2013. 110(30): p. 12450‐12455. 

7.  Callebaut, W., Scientific perspectivism: A philosopher of science’s response to the challenge of big data biology. Studies in History and Philosophy of Science Part C: Studies in History and Philosophy of Biological and Biomedical Sciences, 2012. 43(1): p. 69‐80. 

8.  Howe, D., et al., Big data: The future of biocuration. Nature, 2008. 455(7209): p. 47‐50. 

9.  Trelles, O., et al., Big data, but are we ready? Nat Rev Genet, 2011. 12(3): p. 224‐224. 

10.  Soergel DA, D.N., Knight R, Brenner SE., Selection of primers for optimal taxonomic classification of environmental 16S rRNA gene sequences. ISME J, 2012. 7: p. 1440‐1444. 

11.  Caporaso, J.G., et al., QIIME allows analysis of high‐throughput community sequencing data. Nat Meth, 2010. 7(5): p. 335‐336. 

12.  Schloss, P.D., et al., Introducing mothur: Open‐Source, Platform‐Independent, Community‐Supported Software for Describing and Comparing Microbial Communities. Applied and Environmental Microbiology, 2009. 75(23): p. 7537‐7541. 

13.  DeSantis, T.Z., et al., Greengenes, a Chimera‐Checked 16S rRNA Gene Database and Workbench Compatible with ARB. Applied and Environmental Microbiology, 2006. 72(7): p. 5069‐5072. 

14.  Cole, J.R., et al., The Ribosomal Database Project: improved alignments and new tools for rRNA analysis. Nucleic Acids Research, 2009. 37(suppl 1): p. D141‐D145. 

15.  Quast, C., et al., The SILVA ribosomal RNA gene database project: improved data processing and web‐based tools. Nucleic Acids Research, 2013. 41(D1): p. D590‐D596. 

16.  DeSantis, T.Z., et al., NAST: a multiple sequence alignment server for comparative analysis of 16S rRNA genes. Nucleic Acids Research, 2006. 34(suppl 2): p. W394‐W399. 

Page 89: Technical and Operational Assessment of Genomic Sequencing Platforms

88 

17.  Price, M.N., P.S. Dehal, and A.P. Arkin, FastTree 2 – Approximately Maximum‐Likelihood Trees for Large Alignments. PLoS ONE, 2010. 5(3): p. e9490. 

18.  Quince, C., et al., Removing Noise From Pyrosequenced Amplicons. BMC Bioinformatics, 2011. 12(1): p. 38. 

19.  Wright, E.S., L.S. Yilmaz, and D.R. Noguera, DECIPHER, a Search‐Based Approach to Chimera Identification for 16S rRNA Sequences. Applied and Environmental Microbiology, 2012. 78(3): p. 717‐725. 

20.  Edgar, R.C., et al., UCHIME improves sensitivity and speed of chimera detection. Bioinformatics, 2011. 27(16): p. 2194‐2200. 

21.  Nordberg, E.K., YODA: selecting signature oligonucleotides. Bioinformatics, 2005. 21(8): p. 1365‐1370. 

22.  Phillippy, A.M., et al., Insignia: a DNA signature search web server for diagnostic assay development. Nucleic Acids Research, 2009. 37(suppl 2): p. W229‐W234. 

23.  Altschul, S.F., et al., Gapped BLAST and PSI‐BLAST: a new generation of protein database search programs. Nucleic Acids Research, 1997. 25(17): p. 3389‐3402. 

24.  Langmead, B. and S.L. Salzberg, Fast gapped‐read alignment with Bowtie 2. Nat Meth, 2012. 9(4): p. 357‐359. 

25.  Li, H. and R. Durbin, Fast and accurate short read alignment with Burrows–Wheeler transform. Bioinformatics, 2009. 25(14): p. 1754‐1760. 

26.  Kent, W.J., BLAT—The BLAST‐Like Alignment Tool. Genome Research, 2002. 12(4): p. 656‐664. 

27.  Li, H., et al., The Sequence Alignment/Map format and SAMtools. Bioinformatics, 2009. 25(16): p. 2078‐2079. 

28.  Zhou, C.E., et al., MvirDB—a microbial database of protein toxins, virulence factors and antibiotic resistance genes for bio‐defence applications. Nucleic Acids Research, 2007. 35(suppl 1): p. D391‐D394. 

29.  Chen, L., et al., VFDB 2012 update: toward the genetic diversity and molecular evolution of bacterial virulence factors. Nucleic Acids Research, 2012. 40(D1): p. D641‐D645. 

30.  Li, R., et al., SOAP2: an improved ultrafast tool for short read alignment. Bioinformatics, 2009. 25(15): p. 1966‐1967. 

31.  McKenna, A., et al., The Genome Analysis Toolkit: A MapReduce framework for analyzing next‐generation DNA sequencing data. Genome Research, 2010. 20(9): p. 1297‐1303. 

32.  Browning, S.R., Multilocus Association Mapping Using Variable‐Length Markov Chains. The American Journal of Human Genetics, 2006. 78(6): p. 903‐913. 

33.  Howie, B.N., P. Donnelly, and J. Marchini, A Flexible and Accurate Genotype Imputation Method for the Next Generation of Genome‐Wide Association Studies. PLoS Genetics, 2009. 5(6): p. e1000529. 

34.  Li, Y., et al., Low‐coverage sequencing: Implications for design of complex trait association studies. Genome Research, 2011. 21(6): p. 940‐951. 

35.  Tamura, K., et al., MEGA5: Molecular Evolutionary Genetics Analysis Using Maximum Likelihood, Evolutionary Distance, and Maximum Parsimony Methods. Molecular Biology and Evolution, 2011. 28(10): p. 2731‐2739. 

Page 90: Technical and Operational Assessment of Genomic Sequencing Platforms

89 

36.  Zerbino, D.R. and E. Birney, Velvet: Algorithms for de novo short read assembly using de Bruijn graphs. Genome Research, 2008. 18(5): p. 821‐829. 

37.  Chevreux, B., MIRA: An Automated Genome and EST Assembler, in German Cancer Research Center, Department of Molecular Biophysics2005, Ruprecht‐Karls‐University: Heidelberg. p. 171. 

38.  Orvis, J., et al., Ergatis: a web interface and scalable software system for bioinformatics workflows. Bioinformatics, 2010. 26(12): p. 1488‐1492. 

39.  Angiuoli, S., et al., CloVR: A virtual machine for automated and portable sequence analysis from the desktop using cloud computing. BMC Bioinformatics, 2011. 12(1): p. 356. 

40.  Carver, T.J., et al., ACT: the Artemis comparison tool. Bioinformatics, 2005. 21(16): p. 3422‐3423. 

41.  Darling, A.E., B. Mau, and N.T. Perna, progressiveMauve: Multiple Genome Alignment with Gene Gain, Loss and Rearrangement. PLoS ONE, 2010. 5(6): p. e11147. 

42.  Meyer, F., et al., The metagenomics RAST server ‐ a public resource for the automatic phylogenetic and functional analysis of metagenomes. BMC Bioinformatics, 2008. 9(1): p. 386. 

43.  Markowitz, V.M., et al., IMG/M: the integrated metagenome data management and comparative analysis system. Nucleic Acids Research, 2012. 40(D1): p. D123‐D129. 

44.  Wommack, K.E., et al., VIROME: a standard operating procedure for analysis of viral metagenome sequences. 2012. Vol. 6. 2012. 

45.  Bhaduri, A., et al., Rapid identification of non‐human sequences in high‐throughput sequencing datasets. Bioinformatics, 2012. 28(8): p. 1174‐1175. 

46.  Kostic, A.D., et al., PathSeq: software to identify or discover microbes by deep sequencing of human tissue. Nat Biotech, 2011. 29(5): p. 393‐396. 

47.  Stark, M., et al., MLTreeMap ‐ accurate Maximum Likelihood placement of environmental DNA sequences into taxonomic and functional reference phylogenies. BMC Genomics, 2010. 11(1): p. 461. 

48.  Segata, N., et al., Metagenomic microbial community profiling using unique clade‐specific marker genes. Nat Meth, 2012. 9(8): p. 811‐814. 

49.  Liu, B., et al., Accurate and fast estimation of taxonomic profiles from metagenomic shotgun sequences. BMC Genomics, 2011. 12(Suppl 2): p. S4. 

50.  Ye, Y., et al., Comparing bacterial communities inferred from 16S rRNA gene sequencing and shotgun metagenomics, in Biocomputing 2011. p. 165‐176. 

51.  DePristo, M.A., et al., A framework for variation discovery and genotyping using next‐generation DNA sequencing data. Nat Genet, 2011. 43(5): p. 491‐498. 

52.  Treangen, T., et al., MetAMOS: a metagenomic assembly and analysis pipeline for AMOS. Genome Biology, 2011. 12(1): p. 1‐27. 

Page 91: Technical and Operational Assessment of Genomic Sequencing Platforms

90 

53.  Kultima, J.R., et al., MOCAT: A Metagenomics Assembly and Gene Prediction Toolkit. PLoS ONE, 2012. 7(10): p. e47656. 

54.  Hoff, K., et al., Gene prediction in metagenomic fragments: A large scale machine learning approach. BMC Bioinformatics, 2008. 9(1): p. 217. 

55.  Hoff, K.J., et al., Orphelia: predicting genes in metagenomic sequencing reads. Nucleic Acids Research, 2009. 

56.  Quail, M.A., et al., A tale of three next generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers. BMC Genomics, 2012. 13: p. 341. 

57.  Liu, L., et al., Comparison of next‐generation sequencing systems. J Biomed Biotechnol, 2012. 2012: p. 251364. 

58.  Illumina, MiSeq System Product Information Sheet: Sequencing, http://www.illumina.com/documents//products/datasheets/datasheet_miseq.pdf, Editor 2012. p. 2. 

59.  Illumina, HiSeq Sequencing Systems Specificication Sheet: Illumina Sequencing, http://www.illumina.com/Documents/systems/hiseq/datasheet_hiseq_systems.pdf, Editor 2011. p. 4. 

60.  Hughes, S., Lab Automation Services. Journal of Laboratory Automation, 2012. 17(6): p. 405‐407. 

61.  Kong, F., et al., Automatic Liquid Handling for Life Science: A Critical Review of the Current State of the Art. Journal of Laboratory Automation, 2012. 17(3): p. 169‐185. 

62.  Loman, N.J., et al., Performance comparison of benchtop high‐throughput sequencing platforms. Nat Biotech, 2012. 30(5): p. 434‐439. 

63.  Mardis, E.R., Next‐Generation DNA Sequencing Methods. Annual Reviews in Genomics and Human Genetics, 2008. 9: p. 387‐402. 

64.  Karow, J., Illumina's low‐cost MiSeq promises to speed up next‐gen sequencing, in GenomeWeb2011, GenomeWeb: http://www.genomeweb.com/sequencing/illuminas‐low‐cost‐miseq‐promises‐speed‐next‐gen‐sequencing. p. 2. 

65.  Karow, J., Illumina launches HiSeq with half the output, single flow cell, in GenomeWeb2010: http://www.genomeweb.com/sequencing/illumina‐launches‐hiseq‐half‐output‐single‐flow‐cell. 

 

Version v19, August 29, 2013