seminar: aktuelle themen der bioinformatik thema: genome rearrangement ceyhun tamer actamer@aol.com

Post on 05-Apr-2015

112 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Seminar: Aktuelle Themen der Bioinformatik

Thema:

Genome Rearrangement

Ceyhun Tamer

actamer@aol.com

Ceyhun Tamer, 6.Semester Bioinformatik - 2 -

Übersicht

Einleitung in das Thema Genome Rearrangement

Multiple genome rearrangement: a general

approach via the evolutionary genome graph

(Dmitry Korkin, Lev Goldfarb; 2002)

Multiple genome rearrangement

(David Sankoff, Mathieu Blanchette;1998)

Ceyhun Tamer, 6.Semester Bioinformatik - 3 -

Grundlagen Genome Rearrangement

Möglichkeiten der Evolution auf DNA-Ebene:

Änderungen in der Sequenzabfolge der Basen in Genen:

Änderungen in der Anordnung der Gene:

Ceyhun Tamer, 6.Semester Bioinformatik - 4 -

Grundlagen Genome Rearrangement

Ceyhun Tamer, 6.Semester Bioinformatik - 5 -

Grundlagen Genome Rearrangement

Möglichkeiten der Evolution auf DNA-Ebene:

Änderungen in der Sequenzabfolge der Basen in Genen:

Änderungen in der Anordnung der Gene:

Ceyhun Tamer, 6.Semester Bioinformatik - 6 -

Grundlagen Genome Rearrangement

(Weißkohl)

(Weißrübe)

Ceyhun Tamer, 6.Semester Bioinformatik - 7 -

Grundlagen Genome Rearrangement

Entdeckung des Genome Rearrangement

Ende 1980er Jahren von Jeffrey Palmer und seinen Kollegen

entdeckt

mitochondriale Gene von Weißkohl und der Weißrübe zu 99%

identisch

mitochondriale Genome unterscheiden sich stark in der Gen-

Reihenfolge

Ceyhun Tamer, 6.Semester Bioinformatik - 8 -

Grundlagen Genome Rearrangement

Wozu Genome Rearrangement??

Traditionell Rekonstruktion phylogenetischer Bäume anhand von

Punktmutationen in einzelnen oder wenigen Genen

≠ für den Fall Weißkohl vs. Weißrübe keine gute Wahl

Herpesviren evolvieren sehr schnell

Betrachtung 7 konservierter Blöcke; Veränderungen in deren

Reihenfolge ist wesentlich langsamer

Optimal wäre es die Vorteile von Gen- und Genom-Vergleichen in

einem Algorithmus zu vereinen

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Dmitry Korkin und Lev Goldfarb

Ceyhun Tamer, 6.Semester Bioinformatik - 10 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Motivation:

Es existiert kein vereinheitlichter Rahmen, um

Fragestellungen aus diesem Bereich zu behandeln

Ziel: einen solchen „Rahmen“ bereitstellen

Und z.B. die Ähnlichkeit zweier Genome über den

jüngsten gemeinsamen Vorfahren berechnen

Einführung des EG-Graphen (evolutionary genome

graph)

Ceyhun Tamer, 6.Semester Bioinformatik - 11 -

Grundlegende Definitionen

∑0 = {A,C,G,T} ist unser Alphabet

Ein Gen ist definiert als ein Element aus einer Menge von Strings

Ein Genom G ist definiert als eine Sequenz von Genen

G = (s1, s2,…,sn), sk є S, 1≤ k ≤ n

daraus resultiert die Genomsequenz G = s1° s2 °… ° sn

|G| ist die Länge der Genomsequenz

Multiple genome rearrangement: a general approach via the evolutionary genome graph

0S

Ceyhun Tamer, 6.Semester Bioinformatik - 12 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Subsequenz: ∑ = {a,b,…,z}

a = s1, s2,…, sn , si є ∑, 1 ≤ i ≤ n

b = si1, si2,…, sik , 1 ≤ ij ≤ n, 1 ≤ j ≤ k

Ceyhun Tamer, 6.Semester Bioinformatik - 13 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

MLCS (multiple longest subsequence): ∑ = {a,b,…,z}

S = {a1, a2,…,ad} eine Menge von Sequenzen

|a1| = n1 , |a2| = n2 ,…, |ad| = nd

• b ist der MLCS dann wenn:

• b ist eine Subsequenz von ai für 1 ≤ i ≤ d

• b ist die Längste Sequenz auf, die die vorige Bedingung zutrifft

Wenn d=2 so wird der MLCS nur LCS (longest common

subsequence) genannt

Ceyhun Tamer, 6.Semester Bioinformatik - 14 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

A = (a1, a2,…, an) , B = (b1, b2,…, bn)

p: {1,2,…,n} {1,2,…,n}, so daß bi = ap(i) oder bi = a‘p(i)

Abbildungsfunktion f: Γ Γ, f(A) = B

wird gene order transformation (gor-transformation) für Genom A

genannt

die Menge aller gor-Transformationen wird mit Φgor bezeichnet

Ceyhun Tamer, 6.Semester Bioinformatik - 15 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

genome rearrangement: ein Rearrangement von Genom G nach

Genom Gm ist eine Sequenz (f1, f2,…, fm), m ≥ 1, fi є Φgor

G1 = f1(G) , G2 = f2(G1) , Gi = fi(Gi-1) , 1 ≤ i ≤ m

(Weißkohl)

(Weißrübe)

f1

f2

f3

Ceyhun Tamer, 6.Semester Bioinformatik - 16 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

gor-Transformationen: Inversionen Transpositionen

ins-Transformation (Insertions-Transformation)

Ceyhun Tamer, 6.Semester Bioinformatik - 17 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Inversionen:

A = (a1, a2,…, an), B = (b1, b2,…, bn)

f є Φgor ist eine Inversion einer Subsequenz

A1 = (ak, ak+1,…, ak+m), wenn:

bi = ai , 1 ≤ i ≤ k-1 oder k+m+1 ≤ i ≤ n

bk+i = a‘k+(m-i) , 0 ≤ i ≤ m

a1,…,ak-1, ak,ak+1,…,ak+m, ak+m+1,…,an

a1,…,ak-1, a’k+m,a’k+m-1,…,a’k, ak+m+1,…,an

Genom A:

Genom B:

Ceyhun Tamer, 6.Semester Bioinformatik - 18 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Transpositionen:

A = (a1, a2,…, an), B = (b1, b2,…, bn)

f є Φgor ist eine Transposition einer Subsequenz

A1 = (ak, ak+1,…, ak+m), wenn:

bi = ai , 1 ≤ i ≤ min(k,j) oder max(k,j)+m+1 ≤ i ≤ n

bj+i = ak+i , 1 ≤ i ≤ m

a1,…,ak, ak+1,ak+2,…,ak+m, ak+m+1,…,an

a1,…,aj, ak+1,ak+2,…,ak+m, aj+1,…,an

Genom A:

Genom B:

Ceyhun Tamer, 6.Semester Bioinformatik - 19 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

bi+m = ai , j+1 ≤ i ≤ k (Achtung nur für j ≤ k )

a1,…,aj, aj+1,…,ak, ak+1,ak+2,…,ak+m, ak+m+1,.. an

a1,…,aj, ak+1,ak+2,…,ak+m, aj+1,…,ak, ak+m+1,…,an

Genom A:

Genom B:

Ceyhun Tamer, 6.Semester Bioinformatik - 20 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Insertions-Transformation:

ändert die Länge eines Genoms

A = (a1,a2,…,an), B = (b1,b2,…,bn+m) für m > 0

Abbildungsfunktion f: Γ Γ , f(A) = B

wird ins-Transformation einer Sequenz A1 = (c1,c2,…,cm)

genannt, wenn ein k existiert mit 1 ≤ k ≤ n: bi = ai , 1 ≤ i ≤ k

bk+i = ci , 1 ≤ i ≤ m

bi+k+m = ai+k , 1 ≤ i ≤ n-k

a1,…, ak, ak+1,…, an

a1,…,ak, c1,c2,,…,cm, ak+1,…,an

A:

B:

Ceyhun Tamer, 6.Semester Bioinformatik - 21 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Menge der ins-Transformationen wird mit Φins bezeichnet

Menge der ins- und gor-Transformationen ist Φ Eine Entwicklung von Genom G zu Genom Gm ist eine

Folge (f1,f2,…,fm), m ≥ 1, fi є Φ

G1 = f1(G), G2 = f2(G1), Gi = fi(Gi-1), mit fi є Φ

Ceyhun Tamer, 6.Semester Bioinformatik - 22 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Genom C ist gemeinsamer Vorfahre für Γ1:

für alle G є Γ1: G = C oder C G existiert

Γ1A ist die Menge aller gemeinsamen Vorfahren von Γ1

Γ1 = {1,2,…,7}

Γ1A = {7,8}

Ceyhun Tamer, 6.Semester Bioinformatik - 23 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Grundlegende Definitionen

Genom C ist jüngster gemeinsamer Vorfahre von Γ1

wenn es zur Menge gehört, so daß

für alle G є Γ1A mit G є Γ1C ein C‘ є Γ1C und G C‘ existiert

AC 11

Γ1 = {1,2,…,7}

Γ1A = {7,8}

Γ1C = {7}

Ceyhun Tamer, 6.Semester Bioinformatik - 24 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

EG-Graph und Problemstellung

EG-Graph für Γ1: gerichtet, zusammenhängend

DG = (V,E) mit lV: V Γ, lE: E Φ

sink node: O source node: O

es existiert genau ein source node V0, V0 є V

lV ist injektiv und

wenn G0 = lV(V0), dann ist G0 = C von Γ1

Problem: Wege sind nicht eindeutig

)(1 VlV

Ceyhun Tamer, 6.Semester Bioinformatik - 25 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph EG-Graph und Problemstellung

Ähnlichkeitsbegriff:

um 2 Genome unter Einbeziehung von Transformationen

vergleichen zu können µDG: lV(V) x lV(V) R

Problemstellung:

gegeben Γ1 = {G1, G2,…, Gn} und ein Ähnlichkeitsmaß µDG konstruiere EG-Graph DG, DG = (V,E), so daß

und pDG( Γ1) = minimal unter

allen EG-Graphen

)(1 VlV

+

1,

/),(ji GG

ji nGGµDG

Ceyhun Tamer, 6.Semester Bioinformatik - 26 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

EG-Graph: S = {g1,g2,…,gn), Γ = {G|G = {gi1,gi2,…,gik)

es ist , f ist eine Inversion oder Insertion

und für VS die Menge der sink nodes ist lV(VS) = Γ1

Beschränkungen für den EG-Graphen: kein Genom in Γ enthält doppelte Gene ein Gen g є S darf nicht zweimal invertiert werden keine Transpositionen alle Genome bestehen aus denselben Genen

)(Elf E

Ceyhun Tamer, 6.Semester Bioinformatik - 27 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

Lemma:

durch die Beschränkungen ist DG = (V,E) ein azyklischer Graph Transpositionen sind nicht erlaubt ein Genom kann niemals zu einer Vorstufe zurückkehren

durch Beschränkung der Anzahl an Insertionen ist die Erstellung

aller möglichen Genome endlich

Transformation f einer Sequenz von Genen X

= fX

Ceyhun Tamer, 6.Semester Bioinformatik - 28 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

Lemma:

A,B є Γ und C der jüngste gemeinsame Vorfahre wenn B = fX(A), für fX eine Transposition, dann

A = fX‘(C) und B = fX‘‘(C)

wenn B = f(A), für f eine Inversion, dann ist

A = C (bzw. umgekehrt im symmetrischen Fall)

Ceyhun Tamer, 6.Semester Bioinformatik - 29 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

weighting scheme:

Gewichtung für Inversionen und Insertionen für eine Transformation fA ist das Gewicht

w(fA) = |A|

Bestimmung der Ähnlichkeit von A und B: EG-Graph mit A,B є Γ und C gegeben

A = fn° fn-1°…f1(C)

B = gm° gm-1°…g1(C)

µDG(A,B) =

n

i

m

iii gwfw

1 1

)()(

Ceyhun Tamer, 6.Semester Bioinformatik - 30 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

Was wurde dadurch erreicht?

ein Maß für Verwandtschaft es ist nun möglich einer Verwandtschaftsbeziehung einen reellen Wert zuzuweisen

je geringer µDG(A,B) , desto verwandter sind die beiden Genome

Ceyhun Tamer, 6.Semester Bioinformatik - 31 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

kontextsensitive Gen-Transformationen:

Sinn: Prozess des Genome Rearrangement von der Struktur des

Genoms abhängig abhängig von bestimmter Region: lokaler Kontext abhängig von weit entfernten Regionen: globaler Kontext

globaler Kontext ist sehr komplex wird hier nicht behandelt

außerdem Beschränkung auf Inversionen und Insertionen

Ceyhun Tamer, 6.Semester Bioinformatik - 32 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph ein evolutionsbasiertes Modell der Genom-Entwicklung

Definition:

gegeben Γ1 und eine Transformation fX (Inversion/Insertion)

lokaler Kontext ist (C1,C2), C1,C2 є ∑* fX eine Inversion von X nach X‘, B = fX(A)

A = A1 ○ C1 ○ X ○ C2 ○ A2

B = B1 ○ C1 ○ X‘ ○ C2 ○ B2

fX eine Insertion, B = fX(A) A = A1○ C1○ C2 ○ A2

B = B1○ C1○ X ○ C2 ○ B2

wobei A1, A2, B1, B2, C1, C2 є ∑* wenn C1 und C2 Null-String fX ist kontextfrei

Ceyhun Tamer, 6.Semester Bioinformatik - 33 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

Wozu kontextsensitive Transformationen?

cs-Transformation ist diskriminierender

cf-Transformation erstellt Genome, die „weiter“ entfernt sind

biologisch plausibler

cs-Transformationen sollten bevorzugt werden

Ceyhun Tamer, 6.Semester Bioinformatik - 34 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

weighting scheme update:

wcs(fX) =

wenn C1 und C2 leer sind ist wcs (fx) = wcf (fx)

wenn C1 und C2 groß geringeres Gewicht spezifischere Transformation

kontextsensitive Transformation ist bevorzugt

21 CCX

Xwcf

Ceyhun Tamer, 6.Semester Bioinformatik - 35 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

ein evolutionsbasiertes Modell der Genom-Entwicklung

Was haben wir gewonnen?

Transformationen können reelle Werte zugewiesen werden Möglichkeit Verwandtschaftsbeziehungen zu berechnen Verwandtschaftsbeziehungen vergleichen Miteinbeziehung eines möglichen lokalen Kontexts

Was fehlt? Transpositionen globaler Kontext Unterscheidung zwischen Insertion und Inversion

Ceyhun Tamer, 6.Semester Bioinformatik - 36 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Implementierung: nur mit Transpositionen

Was wird gemacht:

Erstellen eines EG-Graphen aus Γ es werden nur Insertionen betrachtet die Idee des MLCS wird verwendet (dominant-points) Beschränkung auf , so daß jedes Genom in ein

anderes durch endlich viele Operationen überführt werden kann Beschränkung, daß jedes Genom aus Δ, aus denselben

Genen in S besteht es wird ein möglicher EG-Graph ausgegeben

Ceyhun Tamer, 6.Semester Bioinformatik - 37 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Algorithmus Input: Γ1, | Γ1| = N

Output: DG = (V,E), mit V = {v1,v2,…,vK} ist die Menge der Knoten und

E = {e1,e2,…,eM} ist die Menge der Kanten

Ceyhun Tamer, 6.Semester Bioinformatik - 38 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Ceyhun Tamer, 6.Semester Bioinformatik - 39 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Zeitkomplexität

Ο(s * d (T + L))

|Γ1| = d, |S| = s, O(T) Komplexität für MLCS, L = max{|G1|,…,|Gd|}

O(T) = O(n * s * d + |D| * s * d * (logd-3 * n + logd-2 * s))

|D| ist die Größe der Menge aller dominanten Positionen

Ceyhun Tamer, 6.Semester Bioinformatik - 40 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Ergebnisse

G1 = D A B E C F G H;

G2 = A D G B C F H E;

G3 = A G B D C F E H;

G4 = G A B D C F E H;

G5 = E G C A F D B H;

G6 = C E A F B G H D.

Ceyhun Tamer, 6.Semester Bioinformatik - 41 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Ergebnisse

Ceyhun Tamer, 6.Semester Bioinformatik - 42 -

Multiple genome rearrangement: a general approach via the evolutionary genome graph

Fazit

Einführung des EG-Graphen, der die Entwicklung mehrerer

Genome repräsentiert

Es ist möglich gleich mehrere Genome untereinander zu

vergleichen

Aber es gibt noch viel zu tun, da bisher viele Einschränkungen

vorhanden sind

Multiple genome rearrangement

David Sankoff und Mathieu Blanchette

Ceyhun Tamer, 6.Semester Bioinformatik - 44 -

Multiple genome rearrangement

Motivation:

Multiples Alignment von Sequenzen betrachtet nur lokale Insertion,

Deletion und Substitution

Ziel: Multiples Alignment für Gensequenzen mit Inversionen und

Transpositionen

Ceyhun Tamer, 6.Semester Bioinformatik - 45 -

Multiple genome rearrangement

Worum wird es gehen:

gesucht: Belegung der inneren Knoten (Vorfahren)

bisher selten genutzt

Ceyhun Tamer, 6.Semester Bioinformatik - 46 -

Multiple genome rearrangement

Breakpoint Analyse:

A = (a1 ,a2 ,…,an) und B = (b1 ,b2 ,…,bn) mit ai ,bi є S

ai und ai+1 sind adjazent in A

aber nicht in B, so bilden sie einen Breakpoint

Φ(A,B) ist die Anzahl Breakpoints in A

A: g1, g2, g3, g4, g5, g6 BP: (g1,g2), (g2, g3), (g3, g4)

B: g2, g1, g4, g5, g6, g3 BP: (g2,g1), (g1, g4), (g6, g3)

Ceyhun Tamer, 6.Semester Bioinformatik - 47 -

Multiple genome rearrangement

Orientierte Genome:

Miteinbeziehung einer Polarität der Gene

Orientierung gibt die Richtung der Transkription an

Modifizierung des Begriffs: Breakpoint

keine Breakpoints:

g h -h -g

Breakpoints:

h g -g -h g -h

-g h h -g -h g

Ceyhun Tamer, 6.Semester Bioinformatik - 48 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Definition: S = {g1,g2,…,gn} eine Menge von Genen

T = (V,E) ein ungewurzelter Baum mit N ≥ 3 Blättern

, die Blätter des Baumes

, N+1 ≤ L ≤ 2N-2 , die inneren Knoten

minimiere:

)(},...,{ 1 TVVV n

},...,{ 1 LN VV

)(

),(TEVV

ji

ji

GG

Ceyhun Tamer, 6.Semester Bioinformatik - 49 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Aufgabe:

minimiere:

finde eine Belegung der inneren Knoten, so daß die Anzahl der Breakpoints minimal ist

)(

),(TEVV

ji

ji

GG

Ceyhun Tamer, 6.Semester Bioinformatik - 50 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Consensus-Graph (Stars): Bestimmung eines „Medians“ für N Genome mit jeweils

n Genen ohne Orientierung

S = {g1, g2 , g3} , N = 3 , n = 3

G1 = g2 g1 g3

G2 = g3 g2 g1

G3 = g1 g3 g2

Ceyhun Tamer, 6.Semester Bioinformatik - 51 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Bäumen:

Consensus-Graph (Stars): Γ ist der vollständige Graph

die Knoten sind Element aus S

für jede Kante gh in E(Γ) sei u(gh) die Anzahl in der g und h adjazent sind

g1

g3

g2

Ceyhun Tamer, 6.Semester Bioinformatik - 52 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Bäumen:

Consensus-Graph (Stars):

G1 = g2 g1 g3 (g2g1), (g1g3)

G2 = g3 g2 g1 (g3g2), (g2g1)

G3 = g1 g3 g2 (g1g3), (g3g2)

u(g2g1) = 2, u(g1g3) = 2

u(g3g2) = 2, u(g1g2) = 0

u(g2g3) = 0, u(g3g1) = 0

Ceyhun Tamer, 6.Semester Bioinformatik - 53 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Bäumen:

Consensus-Graph (Stars): w(gh) ist das Gewicht der Kante gh mit

w(gh) = N - u(gh)

w(g2g1) = 1, w(g1g3) = 1, w(g3g2) = 1, w(g1g2) = 3

w(g2g3) = 3, w(g3g1) = 3

das TSP wird auf (Γ,w) angewendet

Ceyhun Tamer, 6.Semester Bioinformatik - 54 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Bäumen:

Consensus-Graph (Stars):

mögliche Lösungen (Mediane): g1 g3 g2 Kosten: 3 g2 g1 g3 g3 g2 g1

G1 = g2 g1 g3

G2 = g3 g2 g1

G3 = g1 g3 g2

g1

g3

g2

1

1

1

3

3

3

Ceyhun Tamer, 6.Semester Bioinformatik - 55 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Consensus-Graph (Stars): Bestimmung eines „Medians“ für N Genome mit jeweils

n Genen mit Orientierung

S = {-g1, g1, -g2 , g2 , -g3, g3} , N = 3 , n = 3

G1 = -g2 g1 g3

G2 = g3 -g1 -g2

G3 = g1 g2 g3

Ceyhun Tamer, 6.Semester Bioinformatik - 56 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Consensus-Graph (Stars): Γ ist der vollständige Graph

die Knoten sind Element aus S

für jede Kante gh in E(Γ) sei u(gh) die Anzahl in der -g und h adjazent sind w(gh) = N - u(gh)

wenn g = -h w(gh) = -Z

g1 g3g2

-g1 -g2 -g3

G1 = g1 g2 g3 G1 = g1 -g1 | g2 -g2 | g3 -g3

G2 = g1 g2 -g3 G2 = g1 -g1 | g2 -g2 | -g3 g3

Ceyhun Tamer, 6.Semester Bioinformatik - 57 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Consensus-Graph (Stars):

G1 = -g2 g1 g3, G2 = g3 -g1 -g2, G3 = g1 g2 g3

u(g2g1) = 1, u(-g1g3) = 1, u(-g3-g1) = 1, u(g1-g2) = 1,

u(-g1g2) = 1, u(-g2g3) = 1

w(g2g1) = 2, w(-g1g3) = 2, w(-g3-g1) = 2, w(g1-g2) = 2,

w(-g1g2) = 2, w(-g2g3) = 2

Ceyhun Tamer, 6.Semester Bioinformatik - 58 -

Multiple genome rearrangement

Ceyhun Tamer, 6.Semester Bioinformatik - 59 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Consensus-Graph (Stars): Lösungen:

g1 -g1 g2 -g2 g3-g3 Kosten: -3 * Z + 4 g2 -g2 g3 -g3 -g1 g1

-g2 g2 g1 -g1 g3 -g3

g3 -g3 -g1 g1 -g2 g2

Mediane: g1 g2 g3 : 4 Inversionen Abstand g2 g3 -g1 : 7 Inversionen Abstand -g2 g1 g3 : 5 Inversionen Abstand g3 -g1 -g2 : 5 Inversionen Abstand

Ceyhun Tamer, 6.Semester Bioinformatik - 60 -

Multiple genome rearrangement

Wie gut sind die Lösungen?

Ceyhun Tamer, 6.Semester Bioinformatik - 61 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

binäre Bäume (completely resolved): |V(T)| = 2N - 2

alle nicht-terminalen Knoten haben Grad 3

Beginn mit einem „Start-Baum“

inneren Knoten werden Genome zugeordnet

Zerlegung des Gesamtproblems in Teile von 3-Stars

Ceyhun Tamer, 6.Semester Bioinformatik - 62 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

binäre Bäume (completely resolved): initiale Belegung der inneren Knoten:

eine feste Permutation zufällige Permutationen eine Permutation aus nächster „Verwandtschaft“ Consensus von drei Permutationen aus nächster

„Verwandtschaft“ Initiales TSP für jeden inneren Knoten, Kantengewichte

über dynamische Programmierung Initiales TSP für jeden inneren Knoten, Kantengewichte

sind gemittelt über drei benachbarte Knoten

Ceyhun Tamer, 6.Semester Bioinformatik - 63 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

Der Algorithmus:

algorithm optimizetree

input G1,…,GN

initialize each of GN+1,…,G2N-2 to some Genome

cost := ∞

routine iteratemedian

output GN+1,…,G2N-2

Ceyhun Tamer, 6.Semester Bioinformatik - 64 -

Multiple genome rearrangement

Multiple Genome Rearrangement auf Graphen:

routine iteratemedian

while C = < cost,

cost := C

do for i = N+1,…,2N-2,

G* := median(Gh, Gj, Gk)

if

Gi := G*

end if

enddo

endwhile

},,{ },,{

* ),(),(kjhI kjhI

IiI GGGG

)(

),(TEVV

ji

ji

GG

Ceyhun Tamer, 6.Semester Bioinformatik - 65 -

Multiple genome rearrangement

Wie gut sind die Ergebnisse:

Ceyhun Tamer, 6.Semester Bioinformatik - 66 -

Multiple genome rearrangement

Fazit

Multiples Alignment von Genomen mit Hilfe von Stars und binären

Bäumen

Aussagen über die Genauigkeit der Lösung

Beschränkung der Genome auf dieselbe Genmenge ist

unrealistisch

Ceyhun Tamer, 6.Semester Bioinformatik - 67 -

Multiple genome rearrangement

top related