ismb2014読み会 ragout—a reference-assisted assembly tool for bacterial genomes
DESCRIPTION
14.09.11 ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes https://atnd.org/events/53949TRANSCRIPT
14.09.11 ISMB2014読み会
Ragout—a reference-assisted
assembly tool for bacterial
genomes
1
@yuifu
尾崎遼
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
内容
1. イントロダクション
2. 先行研究
3. 提案手法
1. 概略
2. シンテニーブロックの列への変換
3. half-breakpoint graph の構築
4. シンテニーブロック隣接関係を状態とした系統樹の構築
5. 系統樹の内部状態の推定
6. シンテニーブロック隣接関係の再構築
7. スキャフォールドの再構築
8. 様々なシンテニーブロックサイズで作ったスキャフォールドのマージ
9. 使わなかったコンティグの挿入
4. (時間があったら性能評価など)
2
イントロダクション
• ゲノムアセンブリ
• ゲノム配列を断片化したリードからゲノム配列を再構築する
• コンティグ contig
• 連続的に重なり合うリードの一群
• スキャフォールド scaffold
• 互いの位置関係が明らかなコンティグを線形にまとめたもの
• 目標: コンティグの集合から長いスキャフォールドを作ること
3
先行研究
• 実験による解決
• Long read (e.g. Pac Bio), Jumping library (e.g. paired reads)
• Reference-assisted assembly: 近縁種のリファレンスゲノムの情報を利用
• 1. アラインメント結果を用いる方法
• リファレンスにコンティグをマップし、リファレンスでの位置情報を利用
• 2. Contig ordering problem
• リファレンスと出力されるスキャフォールドの2-break distanceが最小になるようにする
• 3. Reference genome + outgroup (RACA)
• 単一のリファンレンスゲノムと複数の”外群”を入力とする
4
先行研究(RACA)
5Kim, J. et al., PNAS, 110, 1785–90 (2013).
Figure 1 from RACA paper
既存のReference-assisted assembly手法の問題点
• アラインメント結果を用いる方法
• 複数のリファレンスを扱えない
• リファレンスとターゲットの間でStructural variationが存在するとエラーが生じる
• Contig ordering problem
• 複数のリファレンスを扱えない
• リファレンスとターゲットの間でリアレンジメントが存在するとエラーが生じる
• RACA
• リファレンスとターゲットのペアワイズアラインメントからシンテニーブロックを構築 → リファレンスにないコンティグは捨ててしまう
• シンテニーブロック検出の最小サイズ(スケール)は一つしか設定できない →
コンティグは様々なサイズがあるため、複数のサイズを用いたい
6
提案手法(概略)
• Ragout
• 入力
• ターゲットゲノムのアセンブリ(コンティグのセット)
• 1種以上の近縁種のリファレンスゲノム配列のセット
• 系統樹(リファレンスとターゲット含む)
• 出力
• スキャフォールド(コンティグの列)
7
ざっくりいうと
8
リファレンスゲノム ターゲットアセンブリ
シンテニーブロックの列 シンテニーブロックの列
multi-color half-breakpoint graph
half-breakpointが各ゲノムにおいてどのノードと連結しているかを葉の状態とした系統樹
種系統樹
内部節での状態の推定
multi-color half-breakpoint graphにおける最大マッチング問題
様々なシンテニーブロックのサイズについて繰り返す
各サイズでできたスキャフォールドをマージ
ターゲットのスキャフォールドの構築
アセンブリグラフを利用してコンティグをマージ
シンテニーブロックへの変換
9
• 塩基配列をシンテニーブロックの列へ変換する
• Sibelia (Minkin et al., 2013)という著者らが作ったソフトウェアを使用
• リファレンスゲノム→単一のシンテニーブロックの列
• ターゲットゲノムのアセンブリ→複数のシンテニーブロックの列
• 邪魔なシンテニーブロックを除く
• ターゲットゲノムのアセンブリに存在しないシンテニーブロックをリファレンスゲノムから除く
• アセンブリかリファレンスゲノムにおいて、複数存在するシンテニーブロックすべては除く
シンテニーブロックの列(例)Reference 1: + 1 +2 +3 +4 +5
Reference 2: + 1 +3 +4 +5
Reference 3: + 1 – 4 – 3 + 5
Target assembly: +1 | +2+ 3 | +4 | +5
half-breakpoint graph の構築
• Incomplete multi-color half-breakpoint graphs
• ノード:各シンテニーブロックのhead (h)もしくはtail (t)
• エッジ:シンテニーブロックの端(ノード)の隣接関係
• エッジの色はターゲット(赤)もしくはリファレンス(その他の色)において隣接していることを表す
• このグラフにおいてターゲットのエッジ(赤)を再構築することが目標
10Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
Incomplete multi-color half-breakpoint graph
シンテニーブロックの列Reference 1 (blue): + 1 +2 +3 +4 +5
Reference 2 (green): + 1 +3 +4 +5
Reference 3 (yellow): + 1 – 4 – 3 + 5
Target assembly (red): +1 | +2+ 3 | +4 | +5
シンテニーブロック隣接関係を状態とした系統樹の構築
• 系統樹 Tが与えられた時、half-breakpoint uについて、uとつながっているノードを葉の状態としてラベルする
• シンテニーブロックがリファレンスゲノムに存在しないときは、voild状態とする
• ターゲットのエッジ(赤)がないときは、それぞれの状態を入れる
11Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
Incomplete multi-color half-breakpoint graph
Phylogenetic tree
← {3h, 4t}
系統樹の内部状態の推定
• 最節約法により内部節の状態を再構築する
• Sankoffのアルゴリズム
• 状態変化のコスト: (b:枝、τ:枝長)
• 最終的なコスト:
12Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
シンテニーブロック隣接関係の再構築
• ターゲット(赤)のエッジのない各ノードについて、隣接関係を再構築したい
• を最小にするような隣接関係を求める
• この問題は、重み付きグラフの最大マッチング問題として解ける
• マッチング:ノードを共有しないエッジの集合
• Blossom algorithmを用いる
• エッジ (u, v) のコストは{uからの赤のエッジがvであるときのP(u, T)} + {vからの赤のエッジがuであるときのP(v, T)}
• ターゲットでの隣接関係が分かっているノードは予め除く
13Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
スキャフォールドの再構築
• スキャフォールドの再構築
• グラフ上のエッジを両方向へたどる
14Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
様々なシンテニーブロックサイズで作ったスキャフォールドのマージ
1. 以下のいずれかの条件のとき、Asのみに含まれるコンティグを Awに挿入する
1. Asにおいて隣接しているコンティグが、Awにおいて隣接している
2. Asにおいて隣接しているコンティグが、AwにおいてAwにのみ存在するコンティグだけで分割されている
2. 1を大きなシンテニーブロックのサイズから順に繰り返す
15
As: 大きなシンテニーブロックのサイズで作成したスキャフォールド
Aw: 小さなシンテニーブロックのサイズで作成したスキャフォールド
M: マージしてできたスキャフォールド
C: スキャフォールドに含まれるコンティグ
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
使わなかったコンティグの挿入
• リアレンジメントの解析に使われなかったコンティグをアセンブリグラフを用いてスキャフォールドに挿入する
• ターゲットのみで得られたコンティグ
• シンテニーブロックを検出するには短いコンティグ
1. スキャフォールド上で連続したコンティグのペアについて、アセンブリグラフ上でのパスを全通り探す
• ただし、スキャフォールドに含まれるコンティグをパスに含まないもの
2. パスが単一だったら、そのパス上のコンティグをスキャフォールドに挿入する
16
大きい丸(黄色、緑):スキャフォールド上で隣接したコンティグのペア
小さい丸:リアレンジメントの解析に使われなかったコンティグ
Kolmogorov et al., Bioinformatics. 30, i302–9
(2014).
疑似コード
17Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
コメント
• 性能向上に対して、2つの改善点の寄与度がよくわからない
• 複数のゲノムをシンテニーブロック検出に利用
• 複数のサイズでシンテニーブロックを検出
• Reference-assisted assemblyではないScaffoldingツールとの比較をしていない
• 性能比較において、RACAのシンテニーブロックサイズ、outgroup
の選択は適切だったか
18
補遺: Sankoff’s dynamic programming algorithm for the weight small
parsimony problem ライクな系統樹内部枝状態推定アルゴリズム
19
u: half-breakpoint
T: 系統樹
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
補遺: Blossom algorithm
• グラフが与えられたときに、最大のマッチングを探す
• マッチング:2つ以上のエッジが同一のノードを共有しないようなエッジのセット
• Independent edge set ともいう
• 詳しくは http://en.wikipedia.org/wiki/Blossom_algorithm
20
補遺: 性能評価• Ragout
• Minimum synteny block size: 5000, 500, 100 bp
• 比較対象
• Accepts only one reference genome
• Mauve Contig Mover (Rissman et al., 2009)
• OSLay (Richter et al., 2007)
• Parameters recommended for bacterial genomes
• Accepts one reference genome and multiple outgroups
• RACA (Kim et al., 2013)
• Minimum synteny fragment size: prob. 150 kbp (Maximum)
21
補遺: 性能評価指標
• Misordered contigsの数
• スキャフォールドにおいて、マッピングが前後のコンティグの位置と方向と一致していないコンティグの最小数
• Gap
• 一つのスキャフォールドにおいて、隣接したコンティグのペアのうち、正解では間に別のコンティグが存在するペアの数
• Coverage
• 正解に対してアラインされた塩基数/ゲノムサイズ
22
補遺: 性能評価1• Structural variationを起こしていないゲノム
• one reference (E. coli DH1), one target (E. coli MG1655)
• ターゲット: SPAdes (Bankevich et al., 2012)でアセンブリしたコンティグ
23Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
補遺: 性能評価2• Helicobacter Pylori の4系統をリファレンスに、1系統をターゲットに
• いずれのリファレンスもターゲットに対して、structural variationを起こしている
• ターゲット: Abyss (Simpson et al., 2009)でアセンブリしたコンティグ
24Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
用いた系統の系統樹
ターゲットとのドットプロット
←ターゲット
補遺: 性能評価2• 単一のリファレンスを用いる(Ragout, RACA, Mauve contig mover, OSLay)
• 複数のリファレンスを用いる(Ragout, RACA)
• RACA: G27をリファレンスにし、他を外群とした
25Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
単一のリファレンスゲノムを用いた場合 複数のリファレンスゲノムを用いた場合
補遺: 性能評価3• ターゲットが複数の染色体から成る場合
• Vibrio Cholerae (染色体が2本)
• リファレンスとターゲットの間にstructural variationが存在
• ターゲット: SPAdes でアセンブリしたコンティグ(40 bp Illumina reads)
• RACA: O1 Inaba をリファレンスとする
26Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
←ターゲット
補遺: 性能評価4
• Structural variationが多い場合
• 外側の枝ごとに5個の逆位と5個の転座をシミュレーション
• 各枝ごとに10個のindelをシミュレーション
• リファレンス: シンテニーブロックに分解
• ターゲット(E.coli K-12 str. MG1655): 各コンティグが各シンテニーブロックに対応するように切断
• シミュレーションは100回繰り返した
27Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
補遺: 性能評価5
• パラメタ(Minimum synteny block size)のベンチマーク
• Staphylococcus Aureusの異なる系統を用いた
• ターゲット: SPAdesでアセンブリした一細胞シーケンスデータ
28Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).
←ターゲット
補遺: ディスカッション
• Pac Bio や jumping library は必要ないかもしれない
• シンテニーブロックの構築にSibeliaをしているが、他のツールでもよいように改良を計画している
• Sibeliaはバクテリアゲノム用だったが、他のツールを用いれば真核にも拡張できる
• ゲノム中に複数存在するシンテニーブロックや小さなコンティグを挿入するのにアセンブリグラフの情報のみを使っているため、ターゲットの系統にリアレンジメントが起きている場合はエラーが入りうる
• de Bruijn graphからリアレンジメントを解析できるかもしれない
29
様々なシンテニーブロックサイズで作ったスキャフォールドのマージ
• コンティグがstrong:Asに含まれる
• コンティグがweak:Awに含まれ、Asに含まれない
• AsとAwがconsistent:Asにおいて隣接しているコンティグが、(1) Awにおいて隣接しているか (2) weak なコンティグのみによって分割されている
1. consistent ならば、AsのコンティグをAwに挿入し、マージしたものとする
2. 1を大きなシンテニーブロックのサイズから順に繰り返す
30
As: 大きなシンテニーブロックのサイズで作成したスキャフォールド
Aw: 小さなシンテニーブロックのサイズで作成したスキャフォールド
M: マージしてできたスキャフォールド
C: スキャフォールドに含まれるコンティグ
Kolmogorov et al., Bioinformatics. 30, i302–9 (2014).