20131001 lab meeting
DESCRIPTION
2013 Oct. 01 part of slides for lab meetingTRANSCRIPT
Error correction for next generation sequencing
Wu Chihua (Gigi)Matsuyama Lab M2
Bioinformatics GroupOctober 1st, 2013
13年11月5⽇日星期⼆二
Agenda
BackgroundExisting researchToy ExperimentFuture workReferences
2
13年11月5⽇日星期⼆二
Background
3
why & what
13年11月5⽇日星期⼆二
DNA Sequencing
4
Angelina Jolie tested for one gene, what about the other 20,000?
13年11月5⽇日星期⼆二
20,000
5
1
full genome sequence
13年11月5⽇日星期⼆二
Genome
6
An organism's complete set of DNA
13年11月5⽇日星期⼆二
7
Chromosome
����������� ������������������ a����������� ������������������ region����������� ������������������ of����������� ������������������ chromosome����������� ������������������ that����������� ������������������ controls����������� ������������������ a����������� ������������������ hereditary����������� ������������������ characteristic
DNA����������� ������������������ +����������� ������������������ protein
=13年11月5⽇日星期⼆二
8
Chromosome
����������� ������������������ a����������� ������������������ region����������� ������������������ of����������� ������������������ chromosome����������� ������������������ that����������� ������������������ controls����������� ������������������ a����������� ������������������ hereditary����������� ������������������ characteristic
DNA����������� ������������������ +����������� ������������������ protein
=
ATCG
base pair(bp)
13年11月5⽇日星期⼆二
Chromosome Gene
����������� ������������������ a����������� ������������������ region����������� ������������������ of����������� ������������������ chromosome����������� ������������������ that����������� ������������������ controls����������� ������������������ a����������� ������������������ hereditary����������� ������������������ characteristic
20,000+
13年11月5⽇日星期⼆二
10
average : 3,000 bpslargest : 2,400,000 bps
Human gene
Human genome3 billion bps
Human DNA50 ~ 250 Mbps
13年11月5⽇日星期⼆二
Next Generation
11
Sequencing
high����������� ������������������ throughput����������� ������������������ &����������� ������������������ chea
per
output����������� ������������������ short����������� ������������������ reads
13年11月5⽇日星期⼆二
12
Elaine R. Mardis. A decade’s perspective on DNA sequencing technology. Figure 1.
13年11月5⽇日星期⼆二
13
wikipedia. http://en.wikipedia.org/wiki/DNA_sequencing#cite_note-quail2012-37
13年11月5⽇日星期⼆二
14
13年11月5⽇日星期⼆二
Error Correction
15
highly accurate sequenced reads will likely lead to higher quality results.
13年11月5⽇日星期⼆二
Existing Research
16
13年11月5⽇日星期⼆二
17
13年11月5⽇日星期⼆二
Possible direction
To handle large genomes and larger datasets.
To handle insertion and deletion errors.
To correct hybrid datasets from multiple next generation platforms.
To develop error correction methods for datasets in population studies.
18
13年11月5⽇日星期⼆二
Toy experiment
19
13年11月5⽇日星期⼆二
short read
find similar pairs of reads by SlideSort
vote each position by paired read
decide the new base
correct the erroneous bases
13年11月5⽇日星期⼆二
• All pairs similarity search (APSS) for sequence dataset.
• APSS: find all similar pairs in a dataset.
• Performance of SlideSort• 10 minutes for 10 million reads.• 2~3G byte for 10 million reads.
• Complexity of SlideSort• Time: O(N+α)• Equivalence classes are found in O(N).• α is a number of neighbor pairs.
Slidesort
21
13年11月5⽇日星期⼆二
ATGCATAATGCTCAAAGTCGGAAGGTCG
ATTCATTATGCCCAATGTATTATGCTTA
Input Output
ATGCATAATGCTTA
AAG-TCGGAAGGTCG-
• A set of short reads• Distance threshold d
Alignments and distancesof all similar pairs.
ed= 1
ed= 2
ATGCATAATGCTCA
ed= 2SlideSort
Slidesort
22
13年11月5⽇日星期⼆二
ACGC.….
ATGC…….
AAGT…….
Naive approach:O(N2)
How to reduce computational
cost?*Animation by Prof. Shimizu
13年11月5⽇日星期⼆二
ACGC.….
ATGC…….
AAGT…….
Naive approach:O(N2)
How to reduce computational
cost?*Animation by Prof. Shimizu
13年11月5⽇日星期⼆二
ATGC…….
AAGT…….
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
*Animation by Prof. Shimizu
13年11月5⽇日星期⼆二
ATGC…….
AAGT…….
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
*Animation by Prof. Shimizu
13年11月5⽇日星期⼆二
ATGC…….
AAGT…….
*Animation by Prof. Shimizu
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
13年11月5⽇日星期⼆二
ATGC…….
AAGT…….
*Animation by Prof. Shimizu
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
13年11月5⽇日星期⼆二
ACGC.….
ATGC…….
AAGT…….
*Animation by Prof. Shimizu
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
13年11月5⽇日星期⼆二
ACGC.….
ATGC…….
AAGT…….
*Animation by Prof. Shimizu
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
13年11月5⽇日星期⼆二
ACGC.….
AAGT…….
ATGC…….
*Animation by Prof. Shimizu
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
13年11月5⽇日星期⼆二
ACGC.….
AAGT…….
ATGC…….
*Animation by Prof. Shimizu
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
13年11月5⽇日星期⼆二
ATGC…….ACGC.….
ATGC…….
AAGT…….
*Animation by Prof. Shimizu
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
13年11月5⽇日星期⼆二
ATGC…….ACGC.….
ATGC…….
AAGT…….
*Animation by Prof. Shimizu
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
13年11月5⽇日星期⼆二
AAGT…….
ACGC.….
ATGC…….
ATGC…….
*Animation by Prof. Shimizu
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
13年11月5⽇日星期⼆二
AAGT…….
ACGC.….
ATGC…….
ATGC…….
*Animation by Prof. Shimizu
Basic strategy:1. Filtering stage
Find subsets sharing common substring(s)
2. Pair-wise comparison stageCompares all pairs for each subset.
13年11月5⽇日星期⼆二
S1 & S2 are decomposed into m blocks.
If edit distance of S1 & S2 is at most d, there exist at least (m-d) common blocks between S1&S2, at similar position.
Slidesort
13年11月5⽇日星期⼆二
• First step:• Quickly finds a subset of short
reads which shares (m-d) common blocks. (k-mers)
• Second step:• Calculates edit-dist between all
pairs included in the subset (equivalence class).
• Outputs pairs whose edit-dist are more than d, as well as alignments and scores.
ATGC…….
S1
S2
S3S4
S5S6
S1S2S5
S1S2S5
Equivalence class
Slidesort
13年11月5⽇日星期⼆二
Toy ExperimentData: test.fasta
Simulator: Stampy. (An open source that can simulate short read error.)
Num of sequence : 5
Max_seq_length: 51
Min_seq_length: 51
32
13年11月5⽇日星期⼆二
Toy Experiment
33
seq 0 1 2 3 4
◉ 1 1
△ 1 1
✖ 1
13年11月5⽇日星期⼆二
Discussion
• Not sure if test data generated by Stampy is good or not.
• Data set is way too small.
34
13年11月5⽇日星期⼆二
Future work
• Proper, bigger dataset.
• Select data sets from real experiments from online database instead of simulations.
• Try Bayesian model
35
13年11月5⽇日星期⼆二
References
• Elaine R. Mardis. A decade’s perspective on DNA sequencing technology.
• Michael L. Metzker. Sequencing technologies — the next generation.
• Xiao Yang, Sriram P. Chockalingam, Srinivas Aluru. A survey of error-correction methods for next-generation sequencing. Briefing in Bioinformatics (2013) 14 (1): 56-66.
• Kana Shimizu1, Koji Tsuda. SlideSort: all pairs similarity search for short reads. Bioinformatics (2011) 27 (4): 464-470.
• Next Generation Sequencing (NGS) Market [Platforms (Illumina HiSeq, MiSeq, Life Technologies Ion Proton/PGM, 454 Roche), Bioinformatics (RNA-Seq, ChIP-Seq), (Pyrosequencing, SBS, SMRT), (Diagnostics, Personalized Medicine)] - Global Forecast to 2017.
13年11月5⽇日星期⼆二