ismb2014読み会 ragout—a reference-assisted assembly tool for bacterial genomes

30
14.09.11 ISMB2014読み会 Ragouta reference-assisted assembly tool for bacterial genomes 1 @yuifu 尾崎遼 Kolmogorov et al., Bioinformatics. 30, i3029 (2014).

Upload: haruka-ozaki

Post on 02-Jul-2015

347 views

Category:

Science


2 download

DESCRIPTION

14.09.11 ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes https://atnd.org/events/53949

TRANSCRIPT

Page 1: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

14.09.11 ISMB2014読み会

Ragout—a reference-assisted

assembly tool for bacterial

genomes

1

@yuifu

尾崎遼

Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Page 2: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

内容

1. イントロダクション

2. 先行研究

3. 提案手法

1. 概略

2. シンテニーブロックの列への変換

3. half-breakpoint graph の構築

4. シンテニーブロック隣接関係を状態とした系統樹の構築

5. 系統樹の内部状態の推定

6. シンテニーブロック隣接関係の再構築

7. スキャフォールドの再構築

8. 様々なシンテニーブロックサイズで作ったスキャフォールドのマージ

9. 使わなかったコンティグの挿入

4. (時間があったら性能評価など)

2

Page 3: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

イントロダクション

• ゲノムアセンブリ

• ゲノム配列を断片化したリードからゲノム配列を再構築する

• コンティグ contig

• 連続的に重なり合うリードの一群

• スキャフォールド scaffold

• 互いの位置関係が明らかなコンティグを線形にまとめたもの

• 目標: コンティグの集合から長いスキャフォールドを作ること

3

Page 4: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

先行研究

• 実験による解決

• Long read (e.g. Pac Bio), Jumping library (e.g. paired reads)

• Reference-assisted assembly: 近縁種のリファレンスゲノムの情報を利用

• 1. アラインメント結果を用いる方法

• リファレンスにコンティグをマップし、リファレンスでの位置情報を利用

• 2. Contig ordering problem

• リファレンスと出力されるスキャフォールドの2-break distanceが最小になるようにする

• 3. Reference genome + outgroup (RACA)

• 単一のリファンレンスゲノムと複数の”外群”を入力とする

4

Page 5: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

先行研究(RACA)

5Kim, J. et al., PNAS, 110, 1785–90 (2013).

Figure 1 from RACA paper

Page 6: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

既存のReference-assisted assembly手法の問題点

• アラインメント結果を用いる方法

• 複数のリファレンスを扱えない

• リファレンスとターゲットの間でStructural variationが存在するとエラーが生じる

• Contig ordering problem

• 複数のリファレンスを扱えない

• リファレンスとターゲットの間でリアレンジメントが存在するとエラーが生じる

• RACA

• リファレンスとターゲットのペアワイズアラインメントからシンテニーブロックを構築 → リファレンスにないコンティグは捨ててしまう

• シンテニーブロック検出の最小サイズ(スケール)は一つしか設定できない →

コンティグは様々なサイズがあるため、複数のサイズを用いたい

6

Page 7: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

提案手法(概略)

• Ragout

• 入力

• ターゲットゲノムのアセンブリ(コンティグのセット)

• 1種以上の近縁種のリファレンスゲノム配列のセット

• 系統樹(リファレンスとターゲット含む)

• 出力

• スキャフォールド(コンティグの列)

7

Page 8: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

ざっくりいうと

8

リファレンスゲノム ターゲットアセンブリ

シンテニーブロックの列 シンテニーブロックの列

multi-color half-breakpoint graph

half-breakpointが各ゲノムにおいてどのノードと連結しているかを葉の状態とした系統樹

種系統樹

内部節での状態の推定

multi-color half-breakpoint graphにおける最大マッチング問題

様々なシンテニーブロックのサイズについて繰り返す

各サイズでできたスキャフォールドをマージ

ターゲットのスキャフォールドの構築

アセンブリグラフを利用してコンティグをマージ

Page 9: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

シンテニーブロックへの変換

9

• 塩基配列をシンテニーブロックの列へ変換する

• Sibelia (Minkin et al., 2013)という著者らが作ったソフトウェアを使用

• リファレンスゲノム→単一のシンテニーブロックの列

• ターゲットゲノムのアセンブリ→複数のシンテニーブロックの列

• 邪魔なシンテニーブロックを除く

• ターゲットゲノムのアセンブリに存在しないシンテニーブロックをリファレンスゲノムから除く

• アセンブリかリファレンスゲノムにおいて、複数存在するシンテニーブロックすべては除く

シンテニーブロックの列(例)Reference 1: + 1 +2 +3 +4 +5

Reference 2: + 1 +3 +4 +5

Reference 3: + 1 – 4 – 3 + 5

Target assembly: +1 | +2+ 3 | +4 | +5

Page 10: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

half-breakpoint graph の構築

• Incomplete multi-color half-breakpoint graphs

• ノード:各シンテニーブロックのhead (h)もしくはtail (t)

• エッジ:シンテニーブロックの端(ノード)の隣接関係

• エッジの色はターゲット(赤)もしくはリファレンス(その他の色)において隣接していることを表す

• このグラフにおいてターゲットのエッジ(赤)を再構築することが目標

10Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Incomplete multi-color half-breakpoint graph

シンテニーブロックの列Reference 1 (blue): + 1 +2 +3 +4 +5

Reference 2 (green): + 1 +3 +4 +5

Reference 3 (yellow): + 1 – 4 – 3 + 5

Target assembly (red): +1 | +2+ 3 | +4 | +5

Page 11: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

シンテニーブロック隣接関係を状態とした系統樹の構築

• 系統樹 Tが与えられた時、half-breakpoint uについて、uとつながっているノードを葉の状態としてラベルする

• シンテニーブロックがリファレンスゲノムに存在しないときは、voild状態とする

• ターゲットのエッジ(赤)がないときは、それぞれの状態を入れる

11Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Incomplete multi-color half-breakpoint graph

Phylogenetic tree

← {3h, 4t}

Page 12: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

系統樹の内部状態の推定

• 最節約法により内部節の状態を再構築する

• Sankoffのアルゴリズム

• 状態変化のコスト: (b:枝、τ:枝長)

• 最終的なコスト:

12Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Page 13: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

シンテニーブロック隣接関係の再構築

• ターゲット(赤)のエッジのない各ノードについて、隣接関係を再構築したい

• を最小にするような隣接関係を求める

• この問題は、重み付きグラフの最大マッチング問題として解ける

• マッチング:ノードを共有しないエッジの集合

• Blossom algorithmを用いる

• エッジ (u, v) のコストは{uからの赤のエッジがvであるときのP(u, T)} + {vからの赤のエッジがuであるときのP(v, T)}

• ターゲットでの隣接関係が分かっているノードは予め除く

13Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Page 14: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

スキャフォールドの再構築

• スキャフォールドの再構築

• グラフ上のエッジを両方向へたどる

14Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Page 15: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

様々なシンテニーブロックサイズで作ったスキャフォールドのマージ

1. 以下のいずれかの条件のとき、Asのみに含まれるコンティグを Awに挿入する

1. Asにおいて隣接しているコンティグが、Awにおいて隣接している

2. Asにおいて隣接しているコンティグが、AwにおいてAwにのみ存在するコンティグだけで分割されている

2. 1を大きなシンテニーブロックのサイズから順に繰り返す

15

As: 大きなシンテニーブロックのサイズで作成したスキャフォールド

Aw: 小さなシンテニーブロックのサイズで作成したスキャフォールド

M: マージしてできたスキャフォールド

C: スキャフォールドに含まれるコンティグ

Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Page 16: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

使わなかったコンティグの挿入

• リアレンジメントの解析に使われなかったコンティグをアセンブリグラフを用いてスキャフォールドに挿入する

• ターゲットのみで得られたコンティグ

• シンテニーブロックを検出するには短いコンティグ

1. スキャフォールド上で連続したコンティグのペアについて、アセンブリグラフ上でのパスを全通り探す

• ただし、スキャフォールドに含まれるコンティグをパスに含まないもの

2. パスが単一だったら、そのパス上のコンティグをスキャフォールドに挿入する

16

大きい丸(黄色、緑):スキャフォールド上で隣接したコンティグのペア

小さい丸:リアレンジメントの解析に使われなかったコンティグ

Kolmogorov et al., Bioinformatics. 30, i302–9

(2014).

Page 17: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

疑似コード

17Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Page 18: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

コメント

• 性能向上に対して、2つの改善点の寄与度がよくわからない

• 複数のゲノムをシンテニーブロック検出に利用

• 複数のサイズでシンテニーブロックを検出

• Reference-assisted assemblyではないScaffoldingツールとの比較をしていない

• 性能比較において、RACAのシンテニーブロックサイズ、outgroup

の選択は適切だったか

18

Page 19: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

補遺: Sankoff’s dynamic programming algorithm for the weight small

parsimony problem ライクな系統樹内部枝状態推定アルゴリズム

19

u: half-breakpoint

T: 系統樹

Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Page 20: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

補遺: Blossom algorithm

• グラフが与えられたときに、最大のマッチングを探す

• マッチング:2つ以上のエッジが同一のノードを共有しないようなエッジのセット

• Independent edge set ともいう

• 詳しくは http://en.wikipedia.org/wiki/Blossom_algorithm

20

Page 21: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

補遺: 性能評価• Ragout

• Minimum synteny block size: 5000, 500, 100 bp

• 比較対象

• Accepts only one reference genome

• Mauve Contig Mover (Rissman et al., 2009)

• OSLay (Richter et al., 2007)

• Parameters recommended for bacterial genomes

• Accepts one reference genome and multiple outgroups

• RACA (Kim et al., 2013)

• Minimum synteny fragment size: prob. 150 kbp (Maximum)

21

Page 22: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

補遺: 性能評価指標

• Misordered contigsの数

• スキャフォールドにおいて、マッピングが前後のコンティグの位置と方向と一致していないコンティグの最小数

• Gap

• 一つのスキャフォールドにおいて、隣接したコンティグのペアのうち、正解では間に別のコンティグが存在するペアの数

• Coverage

• 正解に対してアラインされた塩基数/ゲノムサイズ

22

Page 23: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

補遺: 性能評価1• Structural variationを起こしていないゲノム

• one reference (E. coli DH1), one target (E. coli MG1655)

• ターゲット: SPAdes (Bankevich et al., 2012)でアセンブリしたコンティグ

23Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Page 24: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

補遺: 性能評価2• Helicobacter Pylori の4系統をリファレンスに、1系統をターゲットに

• いずれのリファレンスもターゲットに対して、structural variationを起こしている

• ターゲット: Abyss (Simpson et al., 2009)でアセンブリしたコンティグ

24Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

用いた系統の系統樹

ターゲットとのドットプロット

←ターゲット

Page 25: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

補遺: 性能評価2• 単一のリファレンスを用いる(Ragout, RACA, Mauve contig mover, OSLay)

• 複数のリファレンスを用いる(Ragout, RACA)

• RACA: G27をリファレンスにし、他を外群とした

25Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

単一のリファレンスゲノムを用いた場合 複数のリファレンスゲノムを用いた場合

Page 26: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

補遺: 性能評価3• ターゲットが複数の染色体から成る場合

• Vibrio Cholerae (染色体が2本)

• リファレンスとターゲットの間にstructural variationが存在

• ターゲット: SPAdes でアセンブリしたコンティグ(40 bp Illumina reads)

• RACA: O1 Inaba をリファレンスとする

26Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

←ターゲット

Page 27: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

補遺: 性能評価4

• Structural variationが多い場合

• 外側の枝ごとに5個の逆位と5個の転座をシミュレーション

• 各枝ごとに10個のindelをシミュレーション

• リファレンス: シンテニーブロックに分解

• ターゲット(E.coli K-12 str. MG1655): 各コンティグが各シンテニーブロックに対応するように切断

• シミュレーションは100回繰り返した

27Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

Page 28: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

補遺: 性能評価5

• パラメタ(Minimum synteny block size)のベンチマーク

• Staphylococcus Aureusの異なる系統を用いた

• ターゲット: SPAdesでアセンブリした一細胞シーケンスデータ

28Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).

←ターゲット

Page 29: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

補遺: ディスカッション

• Pac Bio や jumping library は必要ないかもしれない

• シンテニーブロックの構築にSibeliaをしているが、他のツールでもよいように改良を計画している

• Sibeliaはバクテリアゲノム用だったが、他のツールを用いれば真核にも拡張できる

• ゲノム中に複数存在するシンテニーブロックや小さなコンティグを挿入するのにアセンブリグラフの情報のみを使っているため、ターゲットの系統にリアレンジメントが起きている場合はエラーが入りうる

• de Bruijn graphからリアレンジメントを解析できるかもしれない

29

Page 30: ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes

様々なシンテニーブロックサイズで作ったスキャフォールドのマージ

• コンティグがstrong:Asに含まれる

• コンティグがweak:Awに含まれ、Asに含まれない

• AsとAwがconsistent:Asにおいて隣接しているコンティグが、(1) Awにおいて隣接しているか (2) weak なコンティグのみによって分割されている

1. consistent ならば、AsのコンティグをAwに挿入し、マージしたものとする

2. 1を大きなシンテニーブロックのサイズから順に繰り返す

30

As: 大きなシンテニーブロックのサイズで作成したスキャフォールド

Aw: 小さなシンテニーブロックのサイズで作成したスキャフォールド

M: マージしてできたスキャフォールド

C: スキャフォールドに含まれるコンティグ

Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).