optimierung i - ig matheinstitut für mathematik und wissenscha˝liches rechnen...

OPTIMIERUNG I

Institut für Mathematik und Wissenscha�liches Rechnen

Karl-Franzens-Universität Graz

Optimierung I

Vorlesungsskript

zur Vorlesung

„Optimierung 1, MAT.255UB“

im Sommersemester 2018

Dr. Robert Beinert

Basierend auf einer Mitschri� von

Christoph Kloner

Graz, 11. Juli 2018

Prolog

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirm-od tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd guber-gren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolorsit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor inviduntut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accu-sam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimatasanctus est Lorem ipsum dolor sit amet.

• Lineare Optimierung: [Pan14]

• Innere-Punkte-Verfahren: [Men10]

• Nicht lineare Optimierung: [GK99] [Cla16]

• Vorwort, Zusammenfassung

• Korrekturlesen

• Stichwortverzeichnis

R. Beinert, C. Kloner

Inhaltsverzeichnis

Prolog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

Teil Eins. Lineare restringierte Optimierung

I. Lineare Programme 31. Die Standardform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32. Anwendungsbeispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63. Basislösungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94. Konvexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

II. Numerische Lösungsverfahren 235. Wechsel zwischen Basislösungen . . . . . . . . . . . . . . . . . . . . . . 236. Zulässige Basiswechsel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267. Optimierende Basiswechsel . . . . . . . . . . . . . . . . . . . . . . . . . . 288. Simplex-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319. Finden der ersten zulässigen Lösung . . . . . . . . . . . . . . . . . . . . 3510. Revidierter Simplex-Algorithmus . . . . . . . . . . . . . . . . . . . . . . 38

III. Dualitätstheorie 4511. Das duale lineare Programm . . . . . . . . . . . . . . . . . . . . . . . . . 4512. Optimalitätsbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 5113. Der duale Simplex-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . 5314. Ganzzahlige Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

IV. Innere-Punkte-Verfahren 7115. Das primal-duale Programm . . . . . . . . . . . . . . . . . . . . . . . . . 7116. Barrieremethoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7417. Der zentrale Pfad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8518. Primal-duale Pfad-Verfolgungsverfahren . . . . . . . . . . . . . . . . . 89


iv Inhaltsverzeichnis

Teil Zwei. Unrestringierte, nicht lineare Optimierung

V. Nicht lineare Programme 9919. Minima und Minimierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9920. Optimalitätsbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

VI. Allgemeine numerische Verfahren 10721. Abstiegsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10722. Schrittweitenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

22.1. Armijo-Regel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11122.2. Powell-Wolfe-Regel . . . . . . . . . . . . . . . . . . . . . . . . . . 115

VII. Gradienten-artige Abstiegsverfahren 11923. Das Gradientenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 11924. Gradientenähnliche Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 12025. Konvergenzraten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

VIII. Newton-artige Lösungsverfahren 14126. Das lokale Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 14127. Ein globalisiertes Newton-Verfahren . . . . . . . . . . . . . . . . . . . 14328. Quasi-Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 14929. Lokale Konvergenz des Broyden- und BFGS-Verfahrens . . . . . . . . 155

Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165


OPTIMIERUNG I

Teil Eins.

Lineare restringierte Optimierung

Kapitel I.

Lineare Programme

1. Die Standardform

Ein lineares Programm ist ein Optimierungsproblem, bei welchem ein li-neares Funktional unter linearenGleichheits- undUngleichheitsbedingun-

gen zu minimieren ist. Um die Klasse der linearen Programme analytisch zu un-tersuchen und um geeignete Lösungsalgorithmen zu entwickeln, betrachten wirnur lineare Programme in der folgenden Standardform.

Definition 1.1 (Lineares Programm in Standardform). Sei A ∈ RM×N ,b ∈ RM und c ∈ RN . Ein lineares Programm in Standardform ist die Mini-mierungsaufgabe

minx∈RN

c • x mit Ax = b, x ≥ 0. (1.1)

Die lineare Zielfunktion c • x entspricht hierbei dem Euklidischen Skalar-produkt zwischen den Vektoren c und x. Die Zielfunktion hat im Folgendenalso immer die Form

c • x =N∑

n=1

cn xn .

Die Gleichungsnebenbedingungen Ax = b gelten komponentenweise im RN

und de�nieren ein lineares Gleichungssystem. Umdie Lösungsmenge dieses Sys-tems zu beschreiben, werden wir die entsprechenden Methoden und Resultateder linearen Algebra, wie zum Beispeil das Gausssche Eliminationsverfahren,verwenden. Die Ungleichungsnebenbedingungen x ≥ 0 gelten ebenfalls kom-ponentenweise im RN . Wir setzen also immer xn ≥ 0 für alle Variablen des


4 I. Lineare Programme

linearen Programmes (1.1) voraus. Da alle linearen Programme immer in dieseStandardform überführt werden können, stellt diese keine Einschränkung derAllgemeinheit dar.

Beispiel 1.2. Wir betrachten das Minimierungsproblem:

minx∈RN

c • x mitAx ≤ b, x ≥ 0. (1.2)

Um dieses lineare Programm in die Standardform zu überführen, verwenden wirfür jeder der Ungleichungen Ax ≤ b eine Schlupfvariable. Die Grundidee isthierbei, dass die UngleichungenAx ≤ b genau dann erfüllt sind, wenn ein Vek-tor y ∈ RM mit y ≥ 0 existiert, so dassAx+y = b. Die Ungleichheitsbedingungfür xwird somit eine Gleichheitsbedingung für (x,y). Die Standardform für daslineare Programm (1.2) ist somit gegeben durch

minx∈RN

y∈RM

c • x mit (A, I )

(

x

y

)

= b, x ≥ 0, y ≥ 0. (1.3)

Als nächstes zeigen wir, dass die optimalen Lösungen von (1.2) und (1.3) überein-stimmen.

Ist x∗ eine optimale Lösung von (1.2), dann ist

(A, I )

(

x∗

b −Ax∗

)

= Ax∗ + b −Ax∗ = b

und (x∗, b−Ax∗) ist eine zulässige Lösung von (1.3). Angenommen es gibt einebessere Lösung (x∗∗,y∗∗), welche die Bedingung

c • x∗∗ < c • x∗ mit Ax∗∗ + y∗∗ = b, x∗∗ ≥ 0, y∗∗ ≥ 0

erfüllt. Dies ist allerdings äquivalent zu

c • x∗∗ < c • x∗ mit Ax∗∗ < b,

was allerdings ein Widerspruch zur Optimalität von x . Somit ist (x∗, b −Ax∗)eine optimale Lösung des linearen Programmes in Standardform (1.3). Analogfolgt für eine optimale Lösung (x∗,y∗) von (1.3), dass x∗ eine optimale Lösungvon (1.2) ist. �

Beispiel 1.3. Bei der Überführung der Ungleichheitsbedingungen in Standard-form, sind wir nicht auf „≤“-Nebenbedingung beschränkt. Als weiteres Beispiel


1. Die Standardform 5

betrachten wir das Minimierungsproblem

minx∈RN

c • x mit Ax ≥ b, x ≥ 0. (1.4)

Ähnlich zu der Umformung in Beispiel 1.2 nutzen wir aus, dass die Ungleichun-gen Ax ≥ b genau dann gelten, wenn ein y ∈ RM mit y ≥ 0 existiert, so dassAx−y = b. Die zugehörige Standardform zum linearen Programm (1.4) ist somit

minx∈RN

y∈RM

c • x mit (A,−I )(

x

y

)

= b, x ≥ 0, y ≥ 0. (1.5)

�

Beispiel 1.4. Die Ungleichheitsbedingungen x ≥ 0 können für einzelne Va-riablen auch weggelassen werden. Hierzu betrachten wir das Minimierungspro-blem

minx∈RN

c • x mit Ax = b, x2 ≥ 0, ...,xN ≥ 0. (1.6)

Da für die Variable x1 die Nicht-Negativitätsbedingung fehlt, wird x1 im Folgen-den als freie Variable bezeichnet. Allerdings existiert für x1 eine Darstellung derForm x1 = u1−v1 mitu1 ≥ 0 undv1 ≥ 0. Setzen wir diese Darstellung in (1.6) ein,erhalten wir

minu1,v1,x2,...,xN

c1(u1 − v1) +N∑

n=2

cnxn mit A *,u1−v1x2...xn

+- = b,

u1 ≥ 0,

v1 ≥ 0,

xn ≥ 0.

Dies ist ein lineares Programm in Standardform mit Zielfunktionsvektor

c = (c1,−c1, c2, . . . , cN )T,

Variablenvektorx = (u1,v1,x2, . . . ,xN )

T

und MatrixA = (A1,A1,A2, ...,AN ),

wobei An die Spaltenvektoren der MatrixA = (A1, ...,AN ) bezeichnen. �

Beispiel 1.5. Neben der Substitution in Beispiel 1.4, gibt es noch weitere Vari-anten zur Elimination von freien Variablen. Hierzu betrachten wir wieder dasMinimierungsproblem (1.6). Unter der Annahme am,1 , 0 für einm ∈ {1, ...,M},



können wir die entsprechendeGleichung des SystemsAx = b nach x1 umstellenund erhalten

x1 =1

am,1

(

bm −N∑

n=2

am,nxn

)

.

Durch Einsetzen in (1.6) erhalten wir wieder die gewünschte Standardform. Alsnumerisches Beispiel betrachten wir das Minimierungsproblem

minx1,x2,x3

x1 + 3x2 + 4x3 mitx1 + 2x2 + x3 = 5,

2x1 + 3x2 + x3 = 6und

x2 ≥ 0,

x3 ≥ 0.

Formen wir die erste Gleichheitsbedingung um, erhalten wir x1 = 5 − 2x2 − x3und durch Einsetzen

minx2,x3

x2 + 3x3 mit x2 + x3 = 4 undx2 ≥ 0,

x3 ≥ 0.�

2. Anwendungsbeispiele

Als nächstes betrachten wir eine Reihe vonAnwendungsbeispielen, wo-bei wir ausgehend von einem geeigneten Modell das zugehörige lineare

Optimierungsproblem aufstellen und in die Standardform überführen.

Beispiel 2.1 (Versorgungsproblem). Wir wollen eine möglichst kostengüns-tige Versorgung mit benötigten Nährsto�en für einen landwirtschaftlichen Be-trieb bestimmen. Hierbei haben wir:

• N Produkte zu den Preisen cn mit n = 1, . . . ,N ;

• M Nährsto�e mit den Mindestmengen bm fürm = 1, . . . ,M .

Des Weiteren nehmen wir an, dass eine Einheit des n-ten Produktes genau am,nEinheiten desm-ten Nährsto�es enthält. Die benötigten Mengen der verfügba-ren Produkte bezeichnen wir mit x1, ...,xN . Als Nebenbedingungen haben wir indiesem Beispiel:

• x1, ...,xn ≥ 0, [Produkte werden nicht verkauft]

•∑Nn=1 am,n xn ≥ bm . [Mindestmenge der Nährsto�e]


2. Anwendungsbeispiele 7

a1

a2

a3

a4

b1

b2

b3

c1,1

c4,3

Abbildung 2.1.: Ein möglicher Transportplan mit vier Produzenten a1, a2,

a3, a4 und drei Verbrauchern b1, b2, b3. Für den Transport

entlang einer Kante entstehen die Kosten cm,n . In diesen

Beispiel sind nur die Kosten c1,1 und c4,3 markiert worden.

Die aufgewendeten Kosten sind∑Nn=1 cn xn . Das zugehörige lineare Programm ist

somitminx∈RN

c • x mit Ax ≥ b, x ≥ 0.

Mit Hilfe von geeigneten Schlupfvariablen können wir das Optimierungspro-blem, wie in Beispiel 1.2, in die Standardform überführen. �

Beispiel 2.2 (Transportproblem). Wir möchten einen möglichst kostengüns-tigen Transportplan für ein Produkt von verschiedenen Produktionsstätten anmehrere Verbraucher bestimmen. Hierfür gehen wir von folgendem Modell aus:

• Es gibt M Produktionsstätten, die a1, ...,aM Einheiten produzieren;

• Es gibt N Verbraucher, die b1, ...,bN Einheiten des Produktes benötigen;

• Für den Transport einer Einheit des Produktes von derm-ten Produktions-stätte zum n-ten Verbraucher entstehen Kosten in Höhe von cm,n .

Ein Beispiel für ein konkretes Modell ist graphisch in Abbildung 2.1 gegeben.Die Aufgabe ist nun, einen optimalen Transportplan zu bestimmen, wobei xm,n

die transportierten Produkte vom m-ten Produzenten zum n-ten Verbraucherbeschreiben. Zur Übersichtlichkeit fassen wir die gesuchten Transportmengenin einem Tableau zusammen:

a1 x1,1 . . . x1,N......

...

aM xM,1 . . . xM,Nb1 . . . bN .



Die Nebenbedingungen für das Transportproblem sind:

•∑Nn=1 xm,n = am , [Kein Überschuss]

•∑Mm=1 xm,n = bn. [Bedarf ist gedeckt]

Die Nebenbedingungen implizieren, dass die Produktion und der Bedarf augein-ander abgestimmt sind. Es gilt also immer

∑Mm=1 am =

∑Nn=1 bn . Die Gesamtkosten

und damit die Zielfunktion für einen möglichen Transportplan sind

M∑

m=1

N∑

n=1

cm,nxm,n .

Zusammengefasst erhalten wir für die Transportoptimierung das lineare Pro-gramm

minx∈RM ·N

c • x mit Ax = b, x ≥ 0

mit den Unbekannten x = (x1,1, ...,x1,N , ...,xM,1, ...,xM,N ) und der Systemmatrix

A =

*.......,

1T

0 . . . 0

0 1T . . . 0

....... . .

...

0 0 . . . 1T

I I . . . I

+///////-,

wobei 1 ∈ RN den Vektor (1, . . . , 1)T bezeichnet und I die Einheitsmatrix inRN×N . Die rechte Seite und der Zielfunktionsvektor sind

bT = (a1, . . . ,aM | b1, . . . ,bN )

undcT = (c1,1, . . . , c1,N , c2,1, . . . , c2,N , cM,1, . . . , cM,N ). �

Beispiel 2.3 (Lagerhallenproblem). Für eine Lagerhalle planen wir den Ein-und Verkauf eines Produktes bei begrenzter Lagerkapazität. Die Rahmenbedin-gungen für dieses Problem sind:

• die LagerkapazitätC;

• die Anzahl der Zeiteinheiten N ;

• die Lagerhaltungskosten r je Produkt und Zeiteinheit;

• die Kosten pn für den Kauf und Verkauf je Produkt zum Zeitpunkt n.


3. Basislösungen 9

Zusätzlich fordern wir, dass das Lager am Beginn und am Ende leer ist. Durchden Kauf des Produktes zu einem günstigen Preis und den späteren Verkauf zueinen höheren Preis versuchen wir einen Pro�t zu erzielen. Wir suchen somiteinen optimalen Einkaufsplan (u1, . . . ,uN ) und Verkaufsplan (s1, . . . , sN ).

Um das Problem als lineares Programm zu modellieren, sei xn die Lageraus-lastung zum Zeitpunkt n. Die Lagerauslastung zum folgenden Zeitpunkt ist ge-geben durch xn+1 = xn + un − sn , mit n = 1, ...,N und den Anfangs- und End-bedingungen x0 = 0 und xN+1 = 0. Wegen der maximalen Lagerkapazität ist0 ≤ xn ≤ C. Der erwirtschaftete Pro�t wird durch

N∑

n=1

pn sn

Verkauf

− r xnLager

− pn unEinkauf

beschrieben. Das zugehörige Lineares Programm ist hier

maxxn ,sn ,un

N∑

n=1

pn sn − r xn − pn un mitxn+1 = xn + un − sn, xn ≥ 0, xn ≤ C,

0 = xN + uN − sN , un ≥ 0, sn ≥ 0.

Die Standardform erhalten wir wieder durch Einfügen von geeigneten Schlupf-variablen. �

3. Basislösungen

Um einen Algorithmus zumLösen eines linearen Programmes in Standard-form zu entwickeln, betrachten wir den zulässigen Bereich, der durch das

lineare Gleichungssystem

Ax = b mit x ∈ RN , b ∈ RN und A ∈ RM×N . (3.1)

Des Weiteren nehmen wir an, dass die Matrix A vollen Rang hat. Also habenwir immer rank(A) = M und M ≤ N . Ansonsten enthält A linear abhängigeZeilen und damit redundante Gleichungen, die eliminiert werden können, ohneden zulässigen Bereich zu ändern.

Sind die erstenM Spalten der MatrixA linear unabhängig (was durch Permu-tation der Komponente von x immer erreicht werden kann), können wir dieSystemmatrix als Blockmatrix der Form A = (B,N ) mit B ∈ RM×M undN ∈ RN×(N−M ), wobei der erste Block B regulär ist, schreiben. Unter diesen



Voraussetzungen ist das Gleichungssystem BxB = b eindeutig lösbar und derVektor x = (xT

B, 0)T ist eine Lösung von (3.1). Basierend auf dieser Idee de�nie-

ren wir die Lösung bezüglich einer beliebigen regulären Untermatrix B.

Definition 3.1 (Basislösungen). Wir betrachten das GleichungssystemAx =

b mitA ∈ RM×N , b ∈ RM und rank(A) = M .

• Eine reguläre UntermatrixB = [Aj1, ...,AjM] derMatrixA = [A1, ...,AN ]heißt Basis.

• Die eindeutige Lösung xB von BxB = b heißt Basisvariable.

• Der Vektor x ∈ RN mit

xn ≔(xB )jm n = jm

0 sonst

heißt Basislösung bezüglichB.

• Eine Basislösung x heißt degeneriert, falls mindestens eine Komponenteder Basisvariablen gleich null ist.

Beispiel 3.2. Eines der einfachsten Beispiele ist das Gleichungssystem

a1 x1 + a2 x2 = b

mit einer Gleichung und zwei Variablen. Sind a1 und a2 ungleich null habenwir exakt zwei mögliche reguläre Basen, nämlich a1 und a2. Die zugehörigenBasisvariablen sind x1 und x2. Die beiden Basislösungen sind

x = (b/a1, 0)T und x = (0, b/a2)

T.

Im Fall b = 0 fallen beide Basislösungen x = 0 zusammen und sind degeneriert.In Abbildung 3.1 auf der rechten Seite wird das Gleichungssystem beziehungs-weise die Gradengleichung zusammen mit den beiden Basislösungen graphischdargestellt. �

Definition 3.3 (Zulässige Lösungen). Wir betrachten das GleichungssystemAx = b mitA ∈ RM×N , b ∈ RM und rank(A) = M .

• Der Vektor x ∈ RN ist zulässig für Ax = b und x ≥ 0 falls Ax = b und


3. Basislösungen 11

a1 x

1 +a2 x

2=b

x = (0, b/a2)T

x = (b/a1, 0)T

x1

x2

Abbildung 3.1.: Basislösungen für ein Gleichungssystem mit einer Glei-

chung a1 x1 +a2 x2 = b mit den zwei Unbekannten x1 und

x2. Im Fall b = 0 schneidet die Gerade gerade den Ur-

sprung und beide Basislösungen sind degeneriert.

x ≥ 0.

• Analog de�niert man die Begri�e zulässige Basislösung und zulässige de-generierte Basislösung.

Beispiel 3.4. Analog zu Beispiel 3.2 betrachtenwir zur Veranschaulichungwie-der ein Gleichungssystem mit einer Gleichung und zwei Variablem. Die zulässi-gen Lösungen sind alle x ∈ R2, welche die Gleichung a1 x1 + a2 x2 = b erfüllenund im ersten Quadranten liegen. Die beiden Basislösungen x = (b/a1, 0)T undx = (0, b/a2)T sind also zulässig, wenn b/a1 beziehungsweise b/a2 nicht negativesind. Sollte b gleich null sein, dann sind beide Basislösungen identisch, zulässigund degeneriert. In Abbildung 3.2 auf der nächsten Seite werden die Begri�e zu-lässige Lösung, zulässige Basislösung und unzulässige Basislösung noch einmalverdeutlicht. �

Satz 3.5 (Fundamentalsatz der linearenProgrammierung). Gegeben sei einlineares Programm in der Standardform (1.1). Für A ∈ RM×N mit rank(A) = M ,b ∈ RM und c ∈ RN betrachten wir also das Minimierungsproblem

minx∈RN

c • x mit Ax = b, x ≥ 0. (3.2)

(i) Falls ein zulässiges x ∈ RN für Ax = b und x ≥ 0 existiert, dann existierteine zulässige Basislösung.



zulässige Lösungen

unzulässige Basislösungx = (0, b/a2)

T

zulässige Basislösungx = (b/a1, 0)

Tx1

x2

Abbildung 3.2.: Basislösungen für ein Gleichungssystem mit einer Glei-

chung a1 x1 +a2 x2 = b mit den zwei Unbekannten x1 und

x2. Im Fall b = 0 schneidet die Gerade gerade den Ur-

sprung und beide Basislösungen sind degeneriert.

(ii) Falls das lineare Programm (3.2) eine optimale Lösung besitzt, dann existierteine zulässige Basislösung, die (3.2) ebenfalls minimiert.

Beweis. (i) Wir nehmen an, dass x ∈ RN eine zulässige Lösung für Ax = b

und x ≥ 0 ist. Somit erfüllt der Vektor x insbesondere die Gleichung

b =

N∑

n=1

xn An,

wobei die VektorenAn die Spalten der SystemmatrixA = [A1, ...,AN ] bezeich-nen. Ohne Beschränkung der Allgemeinheit nehmen wir an, dass die ersten pKomponenten von x positiv sind. Notfalls permutieren wir die Indizes der Va-riablen geeignet. Genauer haben wir

x1 > 0, . . . ,xp > 0, xp+1 = 0, . . . ,xN = 0

mit

b =

p∑

n=1

xn An .

Wir unterscheiden nun zwei Fälle. Zunächst betrachten wir den Fall, dass dieSpaltenvektoren{A1, . . . ,Ap} linear unabhängig sind. Insbesondere haben wirin diesem Fall p ≤ rank(A) = M . Für p = M ist x o�ensichtlich eine zulässigeBasislösung. Andernfalls könnenwir weitereM−p unabhängige Spalten beliebigwählen, so dass wir eine BasisB = [A1, . . . ,Ap,Ajm , . . . ,AjM ] erhalten, wobeijp+1, . . . , jM die Indizes der gewählten Spalten sind. Der Vektor x mit xn ≥ 0 für


3. Basislösungen 13

n = 1, . . . ,p und xn = 0 für n = p + 1, . . . ,N ist nun eine degenerierte zulässigeBasislösung zur konstruierten BasisB.

Als nächstes untersuchen wir den Fall, dass die Spaltenvektoren {A1, . . . ,Ap}linear abhängig sind. Durch Konstruktion einer neuen zulässigen Lösungwerdenwir die Anzahl der abhängigen Spalten umeins reduzieren. Aufgrund der Abhän-gigkeit der Spaltenvektoren, �ndenwir immer einenVektory = (y1, ...,yp, 0, ..., 0)

T

mitp

∑

n=1

yn An = 0 und

p∑

n=1

(xn − ϵyn )An = b

für alle reellen ϵ . Hierbei ist mindestens eine Komponente yk echt positive, an-sonsten multiplizieren wir y mit −1.

Ausgehend von y konstruieren wir eine neue zulässige Lösung x−ϵy, sodassx − ϵy ≥ 0 und (x − ϵy)k = 0 für ein k zwischen 1 und p. Dazu wählen wir

ϵ ≔ min{xnyn

: yn ≥ 0}.

Für die nicht positiven Komponenten yn ≤ 0 folgt nun

xn − ϵyn ≥ xn ≥ 0

und für die positiven Komponenten yn > 0 analog

xn − ϵyn ≥ xn − xnynyn = 0.

Insbesondere wird für mindestens einen Index k das Minimum ϵ = xk/yk ange-nommen und die zugehörige Komponente xk −ϵyk ist null. Somit ist x−ϵy eineneue zulässige Lösung mit höchstens p− 1 positive Koordinaten. Führen wir die-se Reduktion weiter bis alle Spalten unabhängig sind, erhalten wir die zulässigeBasislösung wie oben besprochen.

(ii) Es gibt mindestens eine optimale Lösungx∗ von (3.2). Da diese Lösung ins-besondere zulässig ist, gilt wiederAx∗ = bmit x∗ ≥ 0. Nach geeigneter Permu-tation der Indizes setzen wir wieder x∗1 > 0, . . . ,x∗p > 0 und x∗p+1 = 0, . . . ,x∗N = 0

für ein passendes p voraus. Sind die Spaltenvektoren {A1, . . . ,Ap} linear un-abhängig, können wir diese wieder zu einer Basis B erweitern und x∗ ist eineoptimale zulässige Basislösung, siehe (i).

Sind die Spaltenvektoren {A1, . . . ,Ap} jedoch linear abhängig, können wirwieder die Konstruktion aus (i) durchführen. Auf diese Weise erhalten wir einen



weiteren zulässigen Punkt x− ≔ x+ − ϵy mit

ϵ ≔ min{xnyn

: yn > 0}.

O�ensichtlich ist x− keine bessere Lösung als x∗, denn x∗ ist nach Vorausset-zung optimal.Wir nehmennun an, dassx− eine schlechtere Lösung ist und somitc •x− > c •x∗ gilt. In diesem Fall gehen wir einfach in die andere Richtung undbetrachten x+ = x∗ +ηy. Die Schrittweite η wählen wir wieder so, dass wir denzulässigen Bereich nicht verlassen. Genauer verwenden wir hier

η ≔min{xn/yn : yn < 0} falls das Minimum existiert,

1 sonst.

Betrachten wir noch einmal den Zielfunktionswert von x−, erhalten wir

c • x− = c • x∗ − ϵ c • y > c • x∗

und somit c • y < 0. Für den Zielfunktionswert von x+ folgt damit

c • x+ = c • x∗ + η c • y < c • x∗.

Dies ist allerdings einWiderspruch zur Optimalität vonx∗. Somit istx− ebenfallseine (optimale) Lösung von (3.2). Aufgrund der Konstruktion hat x− allerdingshöchstens p − 1 positive Komponenten. Diese Reduktion können wir fortfüh-ren bis die zugehörigen Spaltenvektoren unabhängig sind und wir eine optimalezulässige Basislösung erhalten. �

Bemerkung 3.6. Es gibt genau(NM

)

Möglichkeiten um M Spaltenvektoren derMatrix A auszuwählen. Damit gibt es höchstens

(NM

)

Basislösungen, von denennicht alle notwendigerweise zulässig sind.Wenn das lineare Programm (3.2) eineLösung hat, ist es nach dem Fundamentalsatz der linearen Optimierung ausrei-chend, die Zielfunktionswerte der zulässige Basislösung zu vergleichen, um eineoptimale Lösung zu bestimmen. Wir können also den normalerweise kontinu-ierlichen zulässigen Bereich durch endlich viele Punkte ersetzen. �


4. Konvexität 15

4. Konvexität

Ausgehend von der Beobachtung, dass wir den zulässigen Bereich durchdie zulässigen Basislösungen ersetzen können, um ein lineares Programm

zu optimieren, werden wir im folgenden Abschnitt den Zusammenhang zwi-schen den endlich vielen zulässigen Basislösungen und dem kontinuierlichenzulässigen Bereich genauer untersuchen. Hierzu benötigen wir die Begri�e derKonvexität und der Extremalpunkte aus der konvexen Analysis.

Definition 4.1 (Konvexität und Extremalpunkte). Eine Teilmenge C einesreellen Vektorraums heißt konvex, falls

α x + (1 + α ) y ∈ C

für alle x,y ∈ C und α ∈ [0, 1]. Ein Punkt x einer konvexen Menge ist extremal,wenn es keine nicht trivialen Konvexkombinationen gibt, das heißt, es gibt keinex1,x2 ∈ C mit x1 , x2, so dass

x = α x1 + (1 − α ) x2

für ein α ∈ (0, 1).

O�ensichtlich ist der zulässige Bereich des linearen Programmes in Standard-form (1.1) als Schnitt zwischen dem a�nen Lösungsraum von Ax = b und demnicht negativenOrthantenmitx ≥ 0 konvex. Die extremalen Punkte des zulässi-gen Bereichs sind genau die zulässigen Basislösungen des linearen Programmes.

Satz 4.2 (Extremalität der Basislösungen). Sei K ≔ {x ∈ RN : Ax = b,x ≥0} die Menge der zulässigen Punkte von (1.1). Ein Punkt x ∈ K ist genau dannextremal, wenn x eine zulässige Basislösung ist.

Beweis. Wir betrachten zunächst eine zulässige Basislösung x, welche ohneBeschränkung der Allgemeinheit die Form

x = (x1, . . . ,xM , 0, . . . , 0

N −M Nullen

)T



hat. Insbesondere erfüllt x die Gleichung

M∑

n=1

xn An = b,

wobei die Spaltenvektoren {A1, . . . ,AM } der MatrixM linear unabhängig sind.Da der Vektor x eine zulässige Basislösung ist, istX o�ensichtlich in der MengeK enthalten. Angenommen, die Basislösung x ist nicht extremal und kann alsnicht triviale Konvexkombinaton

x = α y + (1 − α ) z

mit den Vektoren y und z aus K und mit einem α aus dem o�enen Interval (0, 1)geschrieben werden.

Aufgrund der komponentenweisen Nicht-Negativität der zulässigen Vektoreny und z folgt aus

0 = α yn + (1 − α ) zndie Gleichheityn = zn = 0 für die Komponenten mit Index n = M + 1, . . . ,N . Dielinearen Unabhängigkeit von der Spaltenvektoren {A1, . . . ,AM } zusammen mitden beiden Gleichungen

M∑

n=1

yn An = b undM∑

n=1

zn An = b

impliziert xn = yn = zn für die restlichen Indizes n = 1, . . . ,M . Somit ist x = y =

z und die Konvexkombination trivial, was unserer Annahme widerspricht unddie Extremalität x zeigt.

Als nächstes betrachten wir einen Extremalpunkt x von K . Ohne Einschrän-kung können wir voraussetzen, dass x die Form

x1 > 0, ...,xp > 0, xp+1 = 0, ...,xM = 0

hat. Angenommen x ist keine Basislösung und die zugehörigen Spaltenvektoren{A1, . . . ,Ap} der Matrix A sind linear abhängig. Wie im Beweis von Satz 3.5�nden wir ein y ∈ RN und ein ϵ > 0, so dass x − ϵy und x + ϵy zulässig sind.Dies bedeutet insbesondere

x + ϵy ∈ K und x + ϵy ∈ K .


4. Konvexität 17

zulässige LösungenK

Extremalpunktx = (0, b/a2)

T

Extremalpunktx = (b/a1, 0)

T

x1

x2

(a) Das lineare Programm hat genau zwei

Basislösungen und die Menge der zu-

lässigen Lösungen K ist die Verbin-

dungsstrecke zwischen diesen.

zulässige LösungenK

Extremalpunktx = (b/a1, 0)

Tx1

x2

(b) Genau eine Basislösung ist unzuläs-

sig und die Menge K der zulässigen

Lösungen ist ein Strahl ausgehend

von der zweiten Basislösung.

Abbildung 4.1.: Die Menge K der zulässigen Punkte für ein Gleichungs-

system mit einer Gleichung und zwei Unbekannten. Of-

fensichtlich K eine konvexe Menge. In Abhängigkeit von

den Konstanten a1, a2 und b kann die Menge der zulässi-

gen Lösungen unterschiedlich viele extremal Punkte und

zulässige Basislösungen beinhalten.

Die Konvexität von K liefert uns

x = 12 (x + ϵy) +

12 (x − ϵy)

mit x+ϵy , x−ϵy, was ein Widerspruch zur angenommenen Extremalität vonx ist. Somit müssen die Spaltenvektoren {A1, . . . ,Ap} linear unabhängig seinund damit x eine zulässige Basislösung. �

Beispiel 4.3. Wir betrachten wieder den möglichst einfachen Fall mit einer li-nearen Gleichung mit zwei Unbekannten. Der Zulässige Bereich hat also dieForm

K ≔ {x ∈ R2 : a1 x1 + a2 x2 = b,x1 ≥ 0,x2 ≥ 0}.

Sind alle Konstanten a1, a2 und b positiv, dann gibt es wieder genau zwei zu-lässige Basislösungen x = (b/a2, 0)T und x = (0, a1/b )T. Der zulässige Bereich Kist hier genau die Verbindungsstrecke zwischen den beiden Basislösungen. Istgenau eine der Basislösungen unzulässig, dann wird der zulässige Bereich K zueinem Strahl, der in der anderen Basislösung beginnt. Sind beide Basislösungenunzulässig, ist der zulässige Bereich leer. Die ersten beiden Fälle sind in Abbil-dung 4.1 veranschaulicht. �



Definition 4.4 (Polyedische Mengen). Eine Teilmenge K ⊂ RN ist poly-edisch, falls endlich viele aℓ ∈ RN und bℓ ∈ R existieren, so dass

K = {x ∈ RN : aℓ • x ≤ bℓ, ℓ = 1, ..., L}.

Ist die Menge zusätzlich beschränkt, dann ist K ist ein Polyeder.

Korollar 4.5 (Struktur des zulässigen Bereiches). Die Menge der zulässigenLösungen

K ≔ {x ∈ RN : Ax = b,x ≥ 0}

mit A ∈ RM×N , rank(A) = M und b ∈ RM ist polyedisch.

(i) Falls K nicht leer ist, dann besitzt der zulässige Bereich K Extremalpunkte.

(ii) Falls eine endliche optimale Lösung von des zugehörigen linearen Program-mes (1.1) existiert, dann ist mindestens ein Extremalpunkt vonK eine optimaleLösung.

(iii) Der zulässige Bereich K enthält höchstens endlich viele Extremalpunkte.

Beweis. O�ensichtlich ist der zulässige Bereich K eines linearen Programmesin Standardform polyedisch.

(i) Folgt direkt aus Satz 3.5.i und 4.2.

(ii) Folgt direkt aus Satz 3.5.ii und 4.2.

(iii) Folgt direkt aus Bemerkung 3.6 und Satz 4.2. �

Bemerkung 4.6. Falls die Menge K der zulässigen Lösungen K nicht leer undbeschränkt ist, dann der zulässige Bereich ein Polyeder. Man kann zeigen, dassin diesem FallK endlich viele Extremalpunktex1, . . . ,xL besitzt und jeder Punktx inK als Konvexkombination geschriebenwerden kann. Jeder Punkt x hat alsoeine Darstellung der Form

x =

L∑

ℓ=1

αℓ xℓ

mit Koe�zienten αℓ ∈ [0, 1] und∑Lℓ=1 αℓ = 1. �


4. Konvexität 19

x2

x3

x1

Extremalpunkt(0, 1, 0)T



Abbildung 4.2.: Extremalpunkte und zulässiger Bereich des Gleichungs-

systems x1 + x2 + x3 = 1 im nicht negativen Oktanten.

Im verbleibenden restlichen Abschnitt betrachten wir eine Reihe von Beispie-len, um die Zusammenhänge zwischen der konvexen Menge der zulässigen Lö-sungen und den Basislösungen des zugehörigen linearen Programmes zu ver-deutlichen.

Beispiel 4.7. Wir betrachten zunächst wieder einen zulässigen Bereich, der le-diglich von einer einzigen Gleichung beschrieben wird. Genauer betrachten wirin diesem Beispiel den zulässigen Bereich K de�niert durch

K ≔ {x ∈ R3 : x1 + x2 + x3 = 1,x ≥ 0}.

Da jede der drei „Spalten“ für sich eine linear unabhängige Menge bildet, erhal-ten wir hier die drei Basislösungen (1, 0, 0)T, (0, 1, 0)T und (0, 0, 1)T. Jede dieserdrei Basislösungen ist zulässig und somit ein Extremalpunkt von K . Graphischentspricht der zulässige Bereich dem Dreieck, welches von den Basislösungenaufgespannt wird, siehe Abbildung 4.2. �

Beispiel 4.8. Wir erweitern nun das Gleichungssystem in Beispiel 4.7 um eineweitere Gleichung. Genauer betrachten wir als Menge der zulässigen Lösungen

K ≔ {x ∈ R3 : x1 + x2 + x3 = 1, 2x1 + 3x2 = 1,x ≥ 0}.

Die zweite Gleichung beschreibt hierbei die Ebene, die senkrecht auf der x1-x2-Ebene steht und diese entlang der Geraden 2x1 + 3x2 = 1 schneidet. In Abbil-dung 4.3 auf der folgenden Seite werden die Lösungsmengen der beiden Glei-chungen graphisch dargestellt. Die Menge K der zulässigen Lösungen ist der



x2

x3

x1

Extremalpunkt(1/2, 0, 1/2)T

Extremalpunkt(0, 1/3, 2/3)T

Unzulässige Basislösung (2, −1, 0)T

Abbildung 4.3.: Extremalpunkte und zulässiger Bereich des Gleichungs-

systems x1 + x2 + x3 = 1 und 2x1 + 3x2 = 1 im nicht

negativen Oktanten.

Schnitt zwischen den dargestellten Ebenenen im nicht negativen Oktanten undist hier eine Gerade im drei-dimensionalen Raum. Die Extremalpunkte sind dieSchnitte dieser Geraden mit der x1-x3- und x2-x3-Ebene.

Als nächstes bestimmen wir die Basislösungen, indem wir eine der drei Varia-blem gleich null setzen. Für x1 = 0 erhalten wir

{

x2 + x3 = 1

3x2 = 1

}

und x2 =13 , x3 =

23 .

Die zugehörige Basislösung ist also (0, 1/3, 2/3)T. Für x2 = 0 folgt

{

x1 + x3 = 1

2x1 = 1

}

und x1 =12 , x3 =

12 .

Die Basislösung ist hier (1/2, 0, 1/2)T. Diese beiden Basislösungen entsprechen denextremalen Punkten des zulässigen Bereiches.

Es stellt sich nun die Frage, was passiert für die letzte Basislösung mit x3 = 0.Das reduzierte Gleichungssystem impliziert

{

x1 + x2 = 1

2x1 + 3x2 = 1

}

und x1 = 2, x2 = −1.

Die zugehörige Basislösung (2,−1, 0)T ist somit unzulässig. Genauer entspricht


4. Konvexität 21

x11 2 3 4 5

x2

1

2

x1 + 8/3x2 ≤ 4x1 + x2 ≤ 22x1 ≤ 3

P1 P2

P3

P4

P5

Q1

Q2

Q3

Q4

Abbildung 4.4.: Zwei-dimensionales Polyeder zu den Ungleichungen (4.1)

und der Nicht-Negativitätsbedingung x ≥ 0.

diese Basislösung dem Schnitt der Lösungsmenge des betrachteten Gleichungs-systems mit der x1-x2-Ebene, welcher nicht im nicht negativen Oktanten liegt,siehe Abbildung 4.3 auf der gegenüberliegenden Seite. �

Beispiel 4.9. Als letztes Beispiel betrachten wir ein zwei-dimensionales Poly-eder K , welches den Ungleichungen

x1 + 8/3x2 ≤ 4,

x1 + x2 ≤ 2,

2 x1 ≤ 3

(4.1)

und den Nicht-Negativitätsbedingungen x ≥ 0 entspricht. Das Polyeder K wirdin Abbildung 4.4 graphisch dargestellt. O�ensichtlich hat dieses Polyeder fünfExtremalpunkte P1, . . . , P5.

Umdie zugehörigenBasislösungen zu bestimmen, bringenwir durch Einfügenvon geeigneten Schlupfvariablen die Ungleichungen (4.1) auf die Standardform

x1 + 8/3x2 + y1 = 4,

x1 + x2 + y2 = 2,

2 x1 + y3 = 3.

(4.2)

Insgesamt haben wir also drei Gleichungen und fünf Unbekannte und damit(53

)

= 10mögliche Basislösungen.Umdiese zu bestimmen,wählenwir zwei Nicht-Basisvariablen und lösen das reduzierte Gleichungssystem. Auf diese Weise er-halten wir die Basislösungen in Tabelle 4.1 auf der nächsten Seite.



Nicht-Basisvariablen Zugehörige Basislösung Punkt in Abbildung 4.4

x1,x2 (y1,y2,y3) = (4, 2, 3) P1x2,y3 (x1,y1,y2) = (3/2, 5/2, 1/2) P2y2,y3 (x1,x2,y1) = (3/2, 1/2, 7/6) P3y1,y2 (x1,x2,y3) = (4/5, 6/5, 7/5) P4x1,y1 (x2,y2,y3) = (3/2, 1/2, 3) P5x2,y2 (x1,y1,y3) = (2, 2,−1) Q1

y1,y3 (x1,x2,y2) = (3/2, 15/16,−7/16) Q2

x1,y2 (x2,y1,y3) = (2,−4/3, 3) Q3

x2,y1 (x1,y2,y3) = (4,−2,−5) Q4

x1,y3 Spalten nicht unabhängig

Tabelle 4.1.: Basislösungen zu dem Gleichungssystem (4.2).

Die Basislösungenkönnen folgendermaßen interpretiert werden: Jede Schlupf-variable beschreibt, wie die zugehörige Ungleichung von der Gleichheit entferntist. Wird eine Schlupfvariable gleich null und die zugehörige Ungleichung ei-ne Gleichung, wird diese Nebenbedingung aktiv genannt. Ansonsten heißt dieUngleichungsnebenbedingung inaktiv. Die Variablen x1 und x2 können wir als„Schlupfvariablen“ zu den Nicht-Negativitätsbedingungen x1 ≥ 0 und x2 ≥ 0 in-terpretieren. Durch die Wahl von zwei Nicht-Basisvariablen setzten wir immerzwei Nebenbedingungen aktiv und die zugehörige Basislösung ist der Schnitt-punkt zwischen den aktiven Gleichungsbedingungen. Auf diese Weise erhal-ten wir, neben den Extremalpunkten P1, . . . , P5, die unzulässigen BasislösungenQ1, . . . ,Q4. Eine der möglichen Basislösungen existiert hier nicht, da die zuge-hörige Basis nicht regulär ist, vergleiche Tabelle 4.1 und Abbildung 4.4. �

Bemerkung 4.10. Das lineare Programmminx∈R2 c•xmit linearenGleichheits-undUngleichheitsbedingungenkann durch die Bestimmung der Extremalpunkteder Menge K der zulässigen Lösungen gelöst werden, ohne vorher auf die Stan-dardform gebracht zu werden. �


Kapitel II.

Numerische Lösungsverfahren

5. Wechsel zwischen Basislösungen

Um das lineare Programm (1.1) zu lösen, wechseln wir von einer Basislö-sung zur nächsten. Um diesen Wechsel mathematisch zu beschreiben, be-

trachten wir wieder die NebenbedingungenAx = b und x ≥ 0 mitA ∈ RM×N ,b ∈ RM und rank(A) = M . Insbesondere sind die Zeilen von der MatrixA unab-hängig und die Dimension des zugehörigen Kerns ist N −M . Durch Permutationder Variablen können wir ohne Einschränkung annehmen, dass die MatrixA dieForm

A = (B,N ) mit det(B) , 0

hat. Mit Hilfe der Gauss-Elimination können wir das GleichungssystemAx = b

nun umformen und erhalten

x1 + a1,M+1 xM+1 · · · + a1,N xN = b1. . .

......

...

xM + aM,M+1 xM+1 · · · + aM,N xN = bM ,

(5.1)

wobei am,n und bm geeignete reelle Koe�zienten sind. O�ensichtlich ist

x1 = b1, . . . ,xM = bM , xM+1 = 0, . . . ,xN = 0

eine Basislösung von Ax = b, da wir mit Hilfe der Gauss-Elimination geradedas GleichungssystemB (x1, ...xM )

T= b lösen.

Wir untersuchen nun die Frage, was passiert, wenn wir eine Spalte der Bdurch einen andere unabhängige Spaltenvektor von A ersetzen. Genauer tau-schen wir eine Basisvariable xp mit 1 ≤ p ≤ M mit einer Nicht-Basisvariablen xqmitM + 1 ≤ q ≤ N . Hierbei setzen wir voraus, dass xp von xq abhängt und somit


24 II. Numerische Lösungsverfahren

ap,q , 0 gilt. Um nach dem Variablenwechsel wieder eine Darstellung der Form(5.1) zu erhalten, lösen wir die zugehörige p-te Gleichung nach xq auf und setzenin (5.1) ein. Diese Substitution entspricht gerade der Gauss-Elimination für dieq−te Spalte. Wir normieren also die p-te Zeile durch

ãp,n =ap,n

ap,qfür n = 1, ...,N und

˜bp =

bp

ap,q.

Das Einsetzen in die restlichen Gleichungen erfolgt durch

ãm,n = am,n −am,q

ap,qap,n und

˜bm = bm −

am,q

ap,qbp

fürm = 1, . . . ,M mitm , p und n = 1, . . . ,N .Auf diese Weise erhalten wir eine neue Darstellung des Gleichungssystem

Ax = b in der Form

x1 +ã1,p xp +

ã1,M+1 xM+1 + · · · · · · + ã1,N xN =˜b1

. . ....

......

...

ãp,p xp +ãp,M+1 xM+1 + · · · + xq · · · + ãp,N xN =

˜bp

.... . .

......

...

ãM,p xp · · · + xM + ãM,M+1 xM+1 + · · · · · · + ãM,N xN =˜bM .

Die neue zugehörige Basislösung ist o�ensichtlich

x1 =˜b1, . . . ,xp = 0, . . . ,xM =

˜bM , xM+1 = 0, . . . ,xq =

˜bp, . . . ,xN = 0.

Wie bei der Gauß-Elimination wird der Koe�zient ap,q , der die Grundlage fürdie Variablensubstitution liefert, das aktuelle Pivot-Element genannt.

Beispiel 5.1. Zu den Gleichungsnebenbedingungen

x1 + x4 + x5 − x6 = 5,

x2 + 2x4 − 3x5 + x6 = 3,

x3 − x4 + 2x5 − x6 = 1(5.2)

möchtenwir die Basislösung zu den Basisvariablenx4, x5 und x6 bestimmen. An-stelle die zugehörige Basis einfach zu invertieren, verwenden wir hier geeigneteBasiswechsel ausgehend von der o�ensichtlich Basislösung (5, 3, 1, 0, 0, 0). Wiebeim Lösen eines Gleichungssystems in der linearen Algebra schreiben wir das


5. Wechsel zwischen Basislösungen 25

Gleichungssystem (5.2) in Form eines Tableaus. Auf diese Weise erhalten wir

x 1 x2 x3 x4 x5 x61 0 0 1 1 −1 5

0 1 0 2 −3 1 3

0 0 1 −1 2 −1 1 .

Nun wählen wir das rot markierte Pivot-Element a1,4 = 1, womit wir die Ba-sisvariable x1 gegen die Nicht-Basisvariable x4 tauschen. Mit Hilfe der Gauss-Elimination erhalten wir das neue Tableau

x1 x2 x3 x4 x5 x61 0 0 1 1 −1 5

−2 1 0 0 −5 3 −71 0 1 0 3 −2 6 .

Der Wechsel von x2 gegen x5 liefert

x1 x2 x3 x4 x5 x63/5 1/5 0 1 0 −2/5 18/52/5 −1/5 0 0 1 −3/5 7/5

−1/5 3/5 1 0 0 −1/5 9/5 .

Im letzten Schritt tauschen wir die Basisvariable x3 gegen x6. Das resultierendeTableau ist

x1 x2 x3 x4 x5 x61 −1 −2 1 0 0 0

1 −2 −3 0 1 0 −41 −3 −5 0 0 1 −9 .

Die zugehörige Basislösung (0, 0, 0, 0,−4,−9) ist degeneriert und leider unzuläs-sig. �

Die zentrale Beobachtung in diesem Abschnitt ist, dass durch Anwenden derGauss-Elimination auf das lineare Gleichungssystem

Ax = (B,N )

(

xB

xN

)

= b

die Basislösung (B−1 b, 0) zu den Basisvariablen xB der rechten Spalte im Ta-bleau entspricht. Beim Wechsel der Basisvariable xp mit der Nicht-Basisvariablexq muss die Gauss-Elimination nur noch bezüglich einer Spalte des Tableaus



durchgeführt werden, um die neue Basislösung zu bestimmen. Voraussetzunghierfür ist, dass das Pivot-Element ap,q ungleich null ist.

6. Zulässige Basiswechsel

Der nächste Schritt für die Entwicklung eines e�zientenAlgorithmusist der gezielte Wechsel von einer zulässigen Basislösung zur nächsten

zulässigen Basislösung. Die Frage ist also, wie müssen wir das Pivot-Elementwählen, um die Nicht-Negativität (x ≥ 0) der neuen Basislösung sichern. Umdie Notation zu vereinfachen, beginnen wir mit einer zulässigen Basislösung(x1, ...,xM, 0, ..., 0) wobei die Nebenbedingungen durch das GleichungssystemAx = b mitA = (I,N ) gegeben ist. Das zugehörige Tableau hat die Form

x1 . . . xM xM+1 . . . xN1 ∗ · · · ∗ ∗. . .

.........

1 ∗ · · · ∗ ∗ .

Da die zugehörige Basislösung zulässig ist, muss die rechte Seite des Tableausnicht-negative sein.

Um Pivot-Elemente zu bestimmen, welche die Zulässigkeit der neuen Basislö-sung sichern, untersuchenwir die Auswirkung eines Basiswechsels auf die rech-te Seite des Tableaus. Angenommen wir wollen die Basisvariable xp und durchdie Nicht-Basisvariable xq ersetzen. Aufgrund der Gauss-Elimination normierenwir zuerst die zugehörige Pivot-Zeile, wodurch wir

˜bp =

bp

ap,q

erhalten. Wenn die vorherige Basislösung nicht degeneriert ist, also bp > 0 gilt,dann ist die neue Basislösung nur zulässig, wenn das Pivot-Element ap,q positivist. Ist das Pivot-Element negativ, würden wir zu einer unzulässigen Basislösungwechseln. Somit kommen für einen zulässigen Basiswechsel nur positive Pivot-Elemente in Frage.

Als nächstes betrachten wir die restlichen Komponenten der neuen Basislö-


6. Zulässige Basiswechsel 27

sung, die sich mit Hilfe der Gauss-Elimination durch

˜bm = bm −

am,q

ap,qbp

berechnen lassen. Wir nehmen wieder an, dass die vorherige Basislösung nichtdegeneriert ist und somit bp > gilt. Sollte das zugehörige Element in der Pivot-Spalte am,q negativ sein, dann ist die neue rechte Seite immer positiv und dieentsprechende Basisvariable ist zulässig. Andernfalls ist neue rechte Seite nurdann zulässig, wenn die Bedingung

bm

am,q≥

bp

ap,q

erfüllt ist. Um dies für alle Indizesm , p sicherzustellen, wählen wir eine Pivot-Spalte p mit

bp

ap,q= min

{

bm

am,q: am,q > 0

}

.

Zusammengefasst resultiert der Basiswechsel zwischen der Nicht-Basisvaria-ble xq und der Basisvariable xp bei einer nicht degenerierten Basislösung nurdann in einer zulässigen Basislösung, wenn p und q die Bedingungen

ap,q > 0 undbp

ap,q= min

{

bm

am,q: am,q > 0

}

(6.1)

erfüllen. Im nicht betrachteten degenerierten Fall mit bp = 0, können wir einebeliebige Nicht-Basisvariable xq mit der Basisvariable xp tauschen und die Zu-lässigkeit bleibt erhalten.

Beispiel 6.1. Um die Pivot-Wahl für den zulässigen Basiswechsel zu verdeutli-chen, betrachten wir das Tableau

Simplex-Tableau

x1 x2 x3 x4 x5 x61 0 0 2 4 6 4

0 1 0 1 2 3 3

0 0 1 −1 2 1 1

Quotienten

x4 x5 x62 1 2/3

3 3/2 1

/ 1/2 1 .

Für jede der Nicht-Basisvariablen bestimmen wir komponentenweise die Quoti-enten zwischen der rechten Seite b und der Nicht-Basisspalte Aq, welche wir im



rechten Tableau zusammenfassen. Als Pivot-Zeile wählen wir nun den Index mitdem kleinsten Quotienten, vergleiche (6.1). Auf diese Weise erhalten wir die rotmarkierten Pivot-Elemente, welche einen zulässigen Basiswechsel ermöglichen.

�

7. Optimierende Basiswechsel

Für einen effizienten Lösungsalgorithmus muss die Folge der konstru-ierten Basislösungen nicht nur zulässig sein, sondern in jedem Schritt eben-

falls den Zielfunktionswert des zugehörigen linearen Programmes verbessern.Um die Notation wieder weitmöglichst zu vereinfachen, starten wir von einerBasislösung der Form (x1, ...,xM, 0, ..., 0), welche die Nebenbedingungen

Ax = b mit A = (I,N ) und x ≥ 0

erfüllt. Das zugehörige Tableau hat also wieder die Form

x1 . . . xM xM+1 . . . xN1 ∗ · · · ∗ ∗. . .

.........

1 ∗ · · · ∗ ∗ .

Den aktuellen Zielfunktionswert z0 können wir unter Berücksichtigung derNicht-Basisvariablen bestimmen durch

z0 ≔ c • x = cB • xB

mit cB ≔ (c1, ..., cM )T und xB := (x1, ...,xM )

T bestimmen. Der Zielfunktions-wert z0 ist hierbei nur von den Basisvariablen abhängig. Um den Ein�uss derNicht-Basisvariablen auf den Zielfunktionswert zu untersuchen, stellen wir jedeZeile des Gleichungssystems (I,N )x = b nach der zugehörigen Basisvariablenum. Auf diese Weise erhalten wir

xp = bp −N∑

n=M+1

ap,nxn (7.1)

für p zwischen 1 und M .


7. Optimierende Basiswechsel 29

Setzen wir die Gleichungen (7.1) in die Zielfunktion c • x des linearen Pro-grammes ein, erhalten wir die Darstellung

c • x =M∑

n=1

cn xn +

N∑

n=M+1

cn xn

=

M∑

n=1

cn

(

bn −N∑

k=M+1

an,k xk

)

+

N∑

n=M+1

cn xn

=

M∑

n=1

cn bn +

N∑

n=M+1

(

cn −M∑

k=1

ck ak ,n

)

≕rn

xn .

(7.2)

Berücksichtigen wir, dass die rechte Seite b mit den Basisvariablen xB überein-stimmt, ist die Zielfunktion für alle x ∈ RN darstellbar durch

c • x = z0 + rM+1 xM+1 + · · · + rN xN . (7.3)

Wir sehen somit direkt, was beimVergrößern beziehungsweiseNicht-Nullstelleneiner Nicht-Basisvariable passiert. Wählen wir als Pivot-Spalte ein q, so dass rqnegative ist, erhalten wir nach dem Basiswechsel eine Basislösung mit geringe-ren Zielfunktionswert, sofern die aktuelle Basislösung nicht degeneriert ist. Wirbewegen uns somit zielgerichtet in Richtung der optimalen Lösung. Die Koe�-zienten rn werden gewöhnlich als relative Kostenkoe�zienten bezeichnet.

Satz 7.1 (Optimierung der Zielfunktion). Sei x = (x1, ...,xM, 0, ..., 0)T eine

nicht degenerierte, zulässige Basislösung. Wenn es einen negativen relativen Kos-tenkoe�zienten rq gibt, dann existiert eine bessere zulässige Lösung x mit

c • x < c • x.

Beweis. Nach Voraussetzung ist mindestens ein relativer Kostenkoe�zient rqnegativ. Beim Tausch der Nicht-Basisvariable xq mit einer Basisvariable könnenzwei unterschiedliche Situationen auftreten. Zunächst betrachten wir den Fall,dass die Spalte (a1,q, ..., aM,q)

T mindestens einen positiven Wert enthält. Damitkönnen wir ein p wählen, so dass die Bedingungen in (6.1) erfüllt sind. Der Ba-



siswechsel zwischen xq und xp liefert eine neue zulässige Basislösung mit

xq =bp

ap,qund xp = 0.

Der zugehörige Zielfunktionswert kannmit Hilfe von (7.3) bestimmtwerden undist gegeben durch

c • x = z0 + rq xq = z0 + rqbp

ap,q.

Da die ursprüngliche Basislösung nicht degeneriert ist, muss der rechte Sum-mand negativ sein, womit der neue Zielfunktionswert strikt kleiner als z0.

In der Situation, dass die Spalte (a1,q, ..., aM,q)T komponentenweise nicht po-

sitiv ist, können wir die Nicht-Basisvariable xq beliebig groß wählen. Um dieGleichheitsnebenbedingungen Ax = b und die Nicht-Negativität x ≥ 0 nichtzu verletzten, setzen wir die alten Basisvariablen zu

xm = bm − aM,q xq (m = 1, . . . ,M ).

Für jedes xq ∈ (0,∞) erhalten wir somit eine zulässige Lösung mit kleinerenZielfunktionswert

c • x = z0 + rq xq .

Anschaulich ist dieMenge der zulässigen Punkte hier unbeschränkt und die Ziel-funktion ist nach unten unbeschränkt. �

Basierend auf den relativen Kostenkoe�zienten können wir nun ein erstesOptimalitätskriterium für ein lineares Programm in Standardform angeben.

Satz 7.2 (Hinreichendes Optimalitätskriterium). Sind die relativen Kosten-koe�zienten (rn )

Nn=1 für eine zulässige Basislösung x nicht negativ, dann ist x eine

optimale Basislösung.

Beweis. Wir stellen die Zielfunktion des betrachteten linearen Programmes inAbhängigkeit der Nicht-Basisvariablen dar, vergleiche (7.3). Für jede weitere zu-lässige Lösung x ist der zugehörige Zielfunktionswert

c • x = z0 +N∑

n=M+1

rn xn≥0

≥ z0.


8. Simplex-Algorithmus 31

Die zulässige Basislösung x mit Zielfunktionswert z0 ist somit eine optimaleLösung des linearen Programmes. �

8. Simplex-Algorithmus

Wir wenden nun die Basiswechsel-Strategie ausAbschnitt 5– 7 auf einlineares Programm in Standardform an, um die optimale Basislösung

numerisch zu �nden. Ausgehend von der Basislösungx = (x1, . . . ,xM , 0, . . . , 0)T

mit Ax = b, A = (I,C ) und x > 0 berechnen wir zunächst die relativen Kos-tenkoe�zienten und den Zielfunktionswert, welche durch die Gleichungen

rn = cn −M∑

k=1

ak ,n ck und z0 =

M∑

m=1

xm cm =

M∑

m=1

bm cm

mit n = M + 1, . . . ,N gegeben sind. Betrachten wir das zugehörige Simplex-Tableau

x1 . . . xM xM+1 . . . xN b

1 a1,M+1 . . . a1,N b1. . .

.... . .

......

1 aM,M+1 . . . aM,N bMc1 . . . cM cM+1 . . . cN 0

ergeben sich die relativen Kostenkoe�zienten rn und der Zielfunktionswert z0durch Elimination der Elemente c1, . . . , cM in der letzten Zeile. Das resultierendeSimplex-Tableau hat dann die Form

x1 . . . xM xM+1 . . . xN b

1 a1,M+1 . . . a1,N b1. . .

.... . .

......

1 aM,M+1 . . . aM,N bM0 . . . 0 rM+1 . . . rN −zo .

(8.1)

Auf das Tableau (8.1) wenden wir nun eine Reihe von schrittweisen optimieren-den Basiswechseln an.



Algorithmus 8.1 (Simplex-Algorithmus).Voraussetzungen:

• A ∈ RM×N , b ∈ RM und c ∈ RN ,

• rank(A) = M .

(1) Bilde das Tableau (8.1). (Die Spalten (x1, . . . ,xN ) dürfen permutiert sein.)

(2) Falls rn ≥ 0 für n = 1, ...,N , beende den Algorithmus.

→ STOP (Lösung gefunden.)

(3) Wähle q mit rq < 0. (Neue Basisvariable xq .)

(4) Berechne bm/am,q für alle am,p > 0.

• Falls am,q ≤ 0 für alle m = 1, . . . ,M , dann ist der zulässige Bereich

unbeschränkt und es existiert keine Lösung!

→ STOP

• Andernfalls wähle ein p mit

bpap,q= min

{bmam,q

: am,q > 0}.

(5) Führe denBasiswechsel mit Hilfe derGauss-Elimination für dieq−te Spal-te durch. (Inklusive der letzten Zeile)

→Weiter mit Schri� (2).

Bemerkung 8.2. Standardmäßig wird bei der Ausführung des Simplex-Algo-rithmus die Pivot-Spalte mit dem kleinsten relativen Kostenkoe�zienten rq ge-wählt. �

Bemerkung 8.3. Das Bestimmen einer ersten zulässigen Basislösung zum Auf-stellen des Tableaus (8.1) ist im Allgemeinen eine nicht triviale Aufgabe. Es gibtdie folgenden drei Ansätze:

(i) Wahl einer zufälligen regularen Basis und Aufstellen des Simplex-Table-aus (8.1) mit Hilfe der Gauss-Elimination. Sind alle Einträge b1, . . . , bM derrechten Seite nicht negativ, dann ist die Basislösung zulässig. AndernfallsWahl einer anderen zufälligen Basislösung.

(ii) Manchmal ist die Wahl einer ersten zulässigen Basislösung aufgrund derStruktur der Nebenbedingungen o�ensichtlich, vergleiche Beispiel 1.2.

(iii) Mit Hilfe eines linearen Hilfsprogrammes kann die erste zulässige Basis-lösung mit Hilfe des Simplex-Algorithmus bestimmt werden. �


8. Simplex-Algorithmus 33

x110 20 30 40 50

x2

10

20

30

40

T1 T2

T3

2x1 + x2 ≤ 70

x1 + 3x2 ≤ 90

x1 + x2 ≤ 40

60x1 + 40x2 = 2200

Abbildung 8.1.: Zulässiger Bereich des linearen Programmes in Bei-

spiel 8.4 und die zu den Simplex-Tableaus zugehörigen

Basislösungen.

Beispiel 8.4. Als Anwendungsbeispiel für den Simplex-Algorithmus betrach-ten wir das lineare Problem

maxx1≥0x2≥0

60x1 + 40x2 mit 2x1 + x2 ≤ 70,

x1 + x2 ≤ 40,

x1 + 3x2 ≤ 90.

Der zulässige Bereich dieses linearen Programmes wird in Abbildung 8.1 gra-phisch dargestellt. Um den Simplex-Algorithmus anzuwenden, bringen wir dasOptimierungsproblem zunächst in die Standardform, indemwir die Zielfunktionmit −1 multiplizieren und für jede Ungleichung eine Schlupfvariable einführen.

Auf diese Weise erhalten wir das erste Simplex-Tableau

T1: x1 x2 y1 y2 y3 b Q

2 1 1 0 0 70 35

1 1 0 1 0 40 40

1 3 0 0 1 90 90

−60 −40 0 0 0 0 .



O�ensichtlich ist das Tableau T1 für die Basisvariablen (y1,y2,y3) zulässig undbereits in der in der Form (8.1). Die zugehörige Basislösung ist hier gegeben durchx = (0, 0). Wie in Algorithmus 8.1 beschrieben, wählen wir die Spalte mit demkleinsten relativen Kostenkoe�zienten als Pivot-Spalte. Als nächstes bestimmenwir die komponentenweisen Quotienten zwischen der rechten Seite und der Pi-vot-Spalte. Wir wählen die Zeile mit dem kleinsten Quotienten als Pivot-Zeileum die Zulässigkeit nach dem Basistausch zu gewährleisten. Das rot markiertePivot-Element entspricht gerade dem Wechsel zwischen der Nicht-Basisvaria-blen x1 und der Basisvariablen y1. Nach Durchführung der Gauss-Eliminationerhalten wir das neue Tableau

T2: x1 x2 y1 y2 y3 b Q

1 1/2 1/2 0 0 35 70

0 1/2 −1/2 1 0 5 10

0 5/2 −1/2 0 1 55 22

0 −10 30 0 0 2100 .

Die zugehörige Basislösung ist x = (35, 0).

Wie eben wählen wir die Spalte mit dem kleinsten relativen Kostenkoe�zi-enten als Pivot-Spalte und die Zeile mit dem kleinsten Quotienten als Pivot-Zei-le. Wir wählen somit x2 als neue Basisvariable und tausche diese gegen y2. DieGauss-Elimination liefert das Tableau

T3: x1 x2 y1 y2 y3 b Q

1 0 1 −1 0 30

0 1 −2 2 0 10

0 0 2 −5 1 30

0 0 20 20 0 2200 .

Da alle relativen Kostenkoe�zienten nicht negativ sind, haben wir mit x =(30, 10) die optimale Lösung des linearen Programmes gefunden. Die Folge derkonstruierten Simplex-Tableaus lässt sich in Abbildung 8.1 auf der vorherigenSeite verfolgen. Die Niveaulinie der Zielfunktion zum Zielfunktionswert 2200veri�ziert die Optimalität der gefunden Lösung noch einmal graphisch. �

Wie wir bereits in Satz 7.1 gesehen haben, wird für eine nicht degenerierteBasislösung der Zielfunktionswert durch den Basiswechsel verkleinert. Sind allezulässigen Basislösungen nicht degeneriert, bricht der Simplex-Algorithmus so-mit nach endlich vielen Schritten ab; entweder mit der optimalen Lösung, odermit Feststellung der Unbeschränktheit des betrachteten linearen Programmes.


9. Finden der ersten zulässigen Lösung 35

Sind einige der zulässigen Basislösungen jedoch degeneriert, kann der Simplex-Algorithmus stecken bleiben. Genauer, wechselt man in diesem Fall zyklischdurch eine Folge von degenerierten zulässigen Basislösungen. Es gibt verschie-dene Strategien um einen Zyklus zu erkennen und zu durchbrechen.

Ein weiterer Spezialfall tritt auf, wenn einige relative Kostenkoe�zienten fürNicht-Basisvariablen in der optimale Lösung verschwinden. In diesem Fall kön-nen diese Variablen in die Basis getauscht werden, ohne den Zielfunktionswertzu verändern, wodurch wir eine weitere optimale Basislösung erhalten.

9. Finden der ersten zulässigen Lösung

Wie können wir für ein allgemeines Programm in Standardform eineerste zulässige Basislösung�nden, um den Simplex-Algorithmus zu star-

ten? Für einige lineare Programme kann eine Startlösung direkt aus der Strukturder Gleichheitsbedingungen abgeleitet werden. Dies gilt insbesondere für Pro-gramme mit Ungleichungsnebenbedingungen, die zunächst in die Standardformüberführt werden müssen.

Zum Beispiel erhalten wir für lineare Programme der Form

minx∈RN

c • x mit Ax ≤ b, x ≥ 0

durch Einführen der Schlupfvariablen

y = (y1, . . . ,yM )

die Standardform

minx∈RN

y∈RM

c • x mit Ax + y = b, x ≥ 0, y ≥ 0.

Da die Einheitsmatrix o�ensichtlich regulär ist, haben wir mit y = b und x = 0

eine erste zulässige Lösung des linearen Problems in Standardform gefunden.

Basierend auf dieser Idee des Einführens von Schlupfvariablen, betrachtenwir für allgemeine lineare Optimierungsprobleme in Standardform das Hilfspro-gramm

minx∈RN

y∈RM

1 • y mit Ax + y = b, x ≥ 0, y ≥ 0, (9.1)



wobei 1 hier den konstanten Vektor (1, . . . , 1)T ∈ RM bezeichnet.

Wenn es eine zulässige Lösung xmitAx = b und x ≥ 0 im zulässigen Bereichdes ursprünglichen linearen Programmes gibt, dann ist (x1, ..., xN , 0, ..., 0)

T of-fensichtlich eine optimale zulässige Basislösung des Hilfsprogrammes (9.1) zumZielfunktionswert null. Auf der anderen Seite ist (x∗,y∗) eine optimale Lösungdes Hilfsprogrammes (9.1) mit Zielfunktionswert 1 • y = 0, dann folgt aus derNicht-Negativität y = 0 und damitAx∗ = b und x ≥ 0. Die Optimallösung desHilfsprogrammes liefert uns in diesem Fall einen zulässigen Punkt des ursprüng-lichen Problems. Besteht y∗ nur aus Nicht-Basisvariablen, dann ist x∗ sogar einezulässige Basislösung. Sollte die optimale Lösung des Hilfsprogrammes einenZielfunktionswert größer als null haben, dann muss der zulässige Bereich desursprünglichen linearen Programmes leer sein.

Um das Hilfsprogramm (9.1) zu lösen, kann ebenfalls der Simplex-Algorithmusverwendet werden. Hierfür bemerken wir, dass x = 0 und y = b eine zulässigeBasislösung von (9.1) ist. Durch Lösen des Hilfsprogrammes �nden wir immereine zulässige Basislösung des ursprünglichen linearen Programmes oder stellendie Unzulässigkeit desselben fest.

Beispiel 9.1. Um das Au�nden einer ersten zulässigen Basislösung zu verdeut-lichen, betrachten wir das lineare Programm in Standardform

minx1,x2,x3

x1 + 2x2 + x3 mit 2x1 + x2 + 2x3 = 4,

3x1 + 3x2 + x3 = 3,

x1 ≥ 0,x2 ≥ 0,x3 ≥ 0.

Um eine erste zulässige Basislösung zu bestimmen, lösen wir das Hilfsprogramm

minx∈R3

y∈R2

y1 + y2 mit 2x1 + x2 + 2x3 + y1 = 4,

3x1 + 3x2 + x3 + y2 = 3,

x1 ≥ 0,x2 ≥ 0,x3 ≥ 0,

y1 ≥ 0,y2 ≥ 0.

Das zugehörige Simplex-Tableau ist gegeben durch

x1 x2 x3 y1 y2 b Q

2 1 2 1 0 4

3 3 1 0 1 3

1 2 1 0 0 0

0 0 0 1 1 0 ,


9. Finden der ersten zulässigen Lösung 37

wobei wir das Simplex-Tableau des ursprünglichen Programmes um die neueZielfunktion 1•y und die Hilfsvariablen y erweitern. DurchMitführen der altenZielfunktion c •x können wir nach dem Lösen des Hilfsprogrammes direkt denSimplex-Algorithmus auf das ursprüngliche Problem anwenden.

Der erste Schritt zum Lösen des Hilfsprogrammes ist die Berechnung der rela-tiven Kostenkoe�zienten für die Nicht-Basisvariablenx, womit wir das Tableau

x1 x2 x3 y1 y2 b Q

2 1 2 1 0 4 2

3 3 1 0 1 3 1

1 2 1 0 0 0

−5 −4 −3 0 0 −7 .

erhalten. Der nächste Schritt des Simplex-Algorithmus entspricht dem Basis-wechsel zwischen x1 und y2. Auf diese Weise erhalten wir

x1 x2 x3 y1 y2 b Q

0 −1 4/3 1 −2/3 2 3/2

1 1 1/3 0 1/3 1 3

0 1 2/3 0 −1/3 −10 1 −4/3 0 5/3 −2 .

Durch den Basiswechsel zwischen x3 und y1 bekommen wir das Tableau

x1 x2 x3 y1 y2 b Q

0 −3/4 1 3/4 −1/2 3/2

1 5/4 0 −1/4 1/2 1/2

0 3/2 0 −1/2 0 −20 0 0 1 1 0 .

Die Lösung des Hilfsprogrammes ist somit x = (1/2, 0, 3/2)T, womit wir einen zu-lässigen Punkt des ursprünglichen linearen Programmes gefunden haben. DurchStreichen der Hilfszielfunktion und der Hilfsvariablen y erhalten wir das zuläs-sige Tableau

x1 x2 x3 b Q

0 −3/4 1 3/2

1 5/4 0 1/2

0 3/2 0 −2

der anfänglichen Optimierungsproblems. Da dieses Tableau bereits die Optima-



litätsbedingungen in Satz 7.2 erfüllt, ist die Basislösung x = (1/2, 0, 3/2)T hier dieOptimallösung des Ausgangsproblems. �

10. Revidierter Simplex-Algorithmus

Um eine kompaktere Version des Simplex-Algorithmus zu erhalten, wel-che bei einen zulässigen Basiswechsel nicht das gesamte Tableau aktuali-

sieren muss, untersuchen wir den Zusammenhang zwischen der aktuellen BasisB und dem zugehörigen Simplex-Tableau ausführlicher. Allgemein haben wirfür ein lineares Programm in Standardform (1.1) ein Simplex-Tableau der Form

xT

A b

cT .

Wenden wir die Gauß-Elimination an, um die Gleichungen bezüglich der Basis-variablen aufzulösen, erhalten wir das Tableau

xTB

xTN

I N b

0T rT

N−zB

(10.1)

zur Basislösung xB = b und xN = 0.

Um den Zusammenhang zwischen den Elementen des Tableaus (10.1) und dergegebenen Daten A, b und x zu verstehen, können wir nach Permutation derSpalten annehmen , dass die MatrixA die Form

A = (B,N )

besitzt und dass x = (xB,xN ) die Gleichungsbedingungen

BxB +NxN = b

erfüllt. Die letzte Gleichung ist hierbei äquivalent zu

xB +B−1NxN = B−1b.


10. Revidierter Simplex-Algorithmus 39

Simplex-Tableau revidiertes Simplex-Tableau

relative Zielfunktion rTN

= cTN− c−1

BN

Pivot-Spalte Aq = B−1Aq

rechte Seite b = B−1b

Pivot-Zeile eTp N = eTpB−1N

Tabelle 10.1.: Zusammenhänge zwischen dem Simplex-Tableau (10.1) und

dem revidierten Simplex-Tableau (10.2). Der Vektor ep be-

zeichnet hierbei den p-ten Einheitsvektor.

Setzen wir diese Identität in die Zielfunktion ein, erhalten wir

c • x = cB • xB + cN • xN

= cB • (B−1b −B−1NxN ) + cN • xN

= (cTN − cTBB−1N )

=rTN

xN + cTBB−1b

︸︷︷︸=zB

Aufgrund der Identitäten N = B−1N und xB = b = B−1b haben wir hierwieder die relative Zielfunktion in Abhängigkeit der Nicht-Basisvariablen xN ,vergleiche (7.2) und (7.3).

Fassen wir unsere Beobachtungen zusammen, können wir das Simplex-Ta-bleau (10.1) direkt aus den gegebenen Daten A, b und c und der inversen BasisB−1 aufstellen. Auf diese Weise erhalten wir das revidierte Simplex-Tableau

xTB

xTN

I B−1N B−1b0T cT

N− cT

BB−1N −cT

BB−1b

(10.2)

zur Basis B. Vergleichen wir das Simplex-Tableau (10.1) mit dem revidiertenSimplex-Tableau, können wir die relevanten Informationen für den Simplex-Al-gorithmus, wie die relative Zielfunktion, die Pivot-Spalte und die rechte Seite,direkt aus den Daten A, b und c bestimmen. Die konkreten Zusammenhängewerden in Tabelle 10.1 nochmals zusammengefasst.

Der aufwendigste Schritt in jeder Iteration des Simplex-Algorithmus ist dieGauss-Elimination zum Aufstellen des neuen Tableaus. Insgesamt werden hier-für jedes Mal (N +1) (M+1) Einträge neu berechnet. Zur Bestimmung des Pivot-Elements werden allerdings nur die relative Zielfunktion, die Pivot-Spalte unddie rechte Seite benötigt. Von den berechneten (N + 1) (M + 1) Einträgen werden



also nur N −M+2M = N +M Einträge benötigt. Ummöglichst viele Rechenope-rationen für lineare Programme mit wesentlich mehr Variablen als Gleichungeneinzusparen, berechnen wir in jeder Iteration von Algorithmus 8.1 nur die rele-vanten Daten rT

N, Aq und b des neuen Simplex-Tableaus mit Hilfe der inversen

BasisB−1.

Um nach einem Basiswechsel nicht jedes Mal die neue Basismatrix invertie-ren zu müssen, benötigen wir eine möglichst einfache und e�ektive Methodezur Aktualisierung der inversen Basis. Um die Notation wieder zu vereinfachen,nehmenwir an, dass die alte BasisB aus den erstenM Spalten vonA besteht. Dieneue Basis B, welche wir durch denWechsel zwischen der Nicht-Basisvariablenxq und einer Basisvariablen xp erhalten, hat somit die Form

B = (A1, . . . ,Ap−1,Aq,Ap+1, . . . ,AM ).

Die Grundidee hinter dem Simplex-Algorithmus ist die Anwendung der Gauss-Elimination um das Tableau zur neuen Basis zu bestimmen. Da wir jedes Sim-plex-Tableau aus dem anfänglichen Gleichungssystem Ax = b durch Multipli-kation mit der inversen Basis erhalten, müssen wir für die neue inverse BasisB−1 eigentlich nur die Eliminationsschritte berücksichtigen.

Hierfür fassen wir die Umformungen im Simplex-Tableau durch die Gauß-Eliminationen in der Matrix

Ep =

*........,

1 −a1,q/ap,q. . .

...1/ap,q...

. . .

−aM,q/ap,q 1

+////////-mit Aq = B−1Aq zusammen. Die Gauss-Elimination bezüglich der q-ten Spalteentspricht nun gerade der Multiplikation das Gleichungssystems mit Ep . Somiterhalten wir die neue inverse Basis B−1 durch EpB

−1. Um diese Vermutung zubeweisen, betrachten wir das Produkt

EpB−1B = Ep (B

−1A1, . . . ,B−1Aq, . . . ,B

−1AM )

= Ep (e1, . . . , Aq, . . . , eM )

= (e1, . . . ,EpAq, . . . , eM ) = I .

Somit liefert die Gauss-Elimination bezüglich der Pivot-Spalte Aq tatsächlich



die neue inverse Basis und wir erhalten den Aktualisierungsschritt

B−1 = EpB−1. (10.3)

Fassen wir alle unsere Beobachtungen zusammen und berücksichtigen diesein Algorithmus 8.1, erhalten wir den revidierten Simplex-Algorithmus.

Algorithmus 10.1 (Revidierter Simplex-Algorithmus).Voraussetzungen:


• rank(A) = M ,

• B−1 ∈ RM×M , xB = B−1b ≥ 0 und zB = cBxB .

(1) Berechne rN ≔ cN −NTy mit y ≔ B−TcB .

(2) Falls rN ≥ 0, beende den Algorithmus.


(3) Wähle q mit rq < 0. (Neue Basisvariable xq .)

(4) Berechne Aq = B−1Aq (Pivot-Spalte) und bm/am,q für alle am,q > 0.

• Falls am,q ≤ 0 für alle m = 1, ...,M , dann ist der zulässige Bereich

unbeschränkt und es existiert keine Lösung!

→ STOP

• Andernfalls wähle ein p mit

α ≔bpap,q= min

{bmam,q

: am,q > 0}.

(5) Setze xq ≔ α und xB ≔ (xjn − a jn,q/ap,q xp )Mn=1 = xB − αAq sowie zB ≔

zB + (rN )q α .

(6) Berechne B−1 mit Hilfe von (10.3)→Weiter mit Schri� (1).

Bemerkung 10.2. Die Variablen y ≔ B−TcB im ersten Schritt von Algorith-mus 10.1 werden Simplex-Multiplikatoren genannt. �

Beispiel 10.3. Umden revidierten Simplex-Algorithmus und den normalen Sim-plex-Algorithms besser vergleichen zu können, betrachten wir wieder das linea-



re Programm

maxx1≥0x2≥0

60x1 + 40x2 mit 2x1 + x2 ≤ 70,

x1 + x2 ≤ 40,

x1 + 3x2 ≤ 90.

Um Algorithmus 10.1 anzuwenden, überführen wir das lineare Programm zu-nächst wieder in die Standardform. Auf diese Weise erhalten wir das Optimie-rungsproblem

minx≥0y≥0

−60x1 − 40x2 mit 2x1 + x2 + y1 ≤ 70,

x1 + x2 + y2 ≤ 40,

x1 + 3x2 + y3 ≤ 90.

Analog zu Beispiel 8.4 beginnen wir wieder mit der o�ensichtlichen zulässigenBasislösungx = 0 und y = (70, 40, 90)T, wobei die BasisB und die inverse BasisB−1 äquivalent zur Einheitsmatrix sind.

Zur Übersichtlichkeit verwenden wir hier das Tableau

BV B−1 b cB Ax1 Q

y1 1 0 0 70 0 2 35

y2 0 1 0 40 0 1 40

y3 0 0 1 90 0 1 90 .

Im ersten Schritt bestimmen wir die relativen Kostenkoe�zienten rN = cN −NTB−TcB bezüglich der Nicht-Basisvariablen, welche hier gegeben sind durch

r(x1,x2 ) =

(

−60−40

)

−(

2 1 1

1 1 3

) *.,0

0

0

+/- =(

−60−40

)

.

Dax1 den kleinsten relativenKostenkoe�zienten besitzt, werdenwir dieseNicht-Basisvariable in die Basis aufnehmen.Die zugehörige Pivot-Spalte berechnenwirdurch Ax1 = B−1Ax1 . Mit Hilfe der Pivot-Spalte und der rechten Seite bestimmenwir die Quotienten und sehen, dass wir x1 gegen die Basisvariable y1 tauschenmüssen. Die neue inverse BasisB−1 und die neue rechte Seite erhalten wir durchAnwenden der Gauss-Elimination bezüglich Ax1 auf die SpaltenB−1 und b. Das



neue Tableau hat die Form

BV B−1 b cB Ax1 Q

x1 1/2 0 0 35 −60 1/2 70

y2 −1/2 1 0 5 0 1/2 10

y3 −1/2 0 1 55 0 5/2 22 .

Die relativen Zielfunktionskoe�zienten für die zweite Iteration des Simplex-Algorithmus sind

r(x2,y1) =

(

−400

)

−(

1 1 3

1 0 0

) *.,−300

0

+/- =

(

−1030

)

.

Nachdem wir die zugehörige Pivot-Spalte und die Quotienten bestimmt haben,sehen wir, dass die Basisvariabley2 gegen die Nicht-Basisvariable x2 zu tauschenist. Mit Hilfe derGauss-Elimination erhalten wir die Inverse und die rechte Seiteim folgenden Tableau

BV B−1 b cB Ax1 Q

x1 1 −1 0 30 −60x2 −1 2 0 10 −40y3 2 −5 1 30 0 .

Aufgrund der Positivität der relativen Zielfunktionskoe�zienten

r(y1,y2) =

(

0

0

)

−(

1 0 0

0 1 0

) *.,−20−200

+/- =(

20

20

)

bricht an dieser Stelle der revidierte Simplex-Algorithmus mit der optimalen Lö-sung x = (30, 10)T ab. �


Kapitel III.

Dualitätstheorie

11. Das duale lineare Programm

Zu jedem (primalen) linearen Programm de�nieren wir nun ein weiteres(duales) lineares Programm, welches ebenfalls von den gegebenen Daten

A, b und c abhängt. Die Grundidee ist hierbei, dass es eine enge Beziehung zwi-schen den zulässigen Bereichen, optimalen Lösungen und optimalen Zielfunk-tionswerten beider Probleme gibt. Für die genaue De�nition setzten wir wiedervoraus, dass sich das primale Problem in der Standardform (1.1) be�ndet.

Definition 11.1 (Duales lineares Programm). Sei A ∈ RM×N , b ∈ RM , c ∈RN und rank(A) = M . Das primale lineare Programm in Standardform ist die

Minimierungsaufgabe

minx∈RN

c • x mit Ax = b, x ≥ 0 (P)

das zugehörige duale lineare Programm ist die Maximierungsaufgabe

maxy∈RM

z∈RN

b • y mit ATy + z = c, z ≥ 0. (D)

Beispiel 11.2 (Produktionsplan). Eine Firma produziert N Produkte, die je-weils zu Preisen cn verkauft werden können. Um eine Einheit des n-ten Produk-tes zu produzieren, werden genauan,m Einheiten des Ausgangssto�esm benötigt.Es stehen maximal bm Einheiten desm-ten Ausgangssto�es zu Verfügung. Unter


46 III. Dualitätstheorie

der Annahme, dass wir den Gewinn durch den Verkauf der produzieren Gütermaximieren wollen, erhalten wir das primale lineare Programm

maxx∈RN

c • x mit Ax ≤ b, x ≥ 0.

Um das duale Problem aufstellen zu können, müssen wir das primale Optimie-rungsproblem in die Standardform bringen. Durch Einfügen von Schlupfvaria-blen, erhalten wir

minx∈RN

y∈RM

(−cT, 0)(

x

y

)

mit (A, I )

(

x

y

)

= b, x ≥ 0, y ≥ 0.

Nach De�nition 11.1 ist das duales Programm nun durch das Maximierungspro-blem

maxλ∈RM

z∈RN

b • λ mit

(

AT

I

)

λ + z =

(

−c0

)

, z ≥ 0

gegeben. Setzen wir µ ≔ −λ, dann erhalten wir die äquivalente Form

minµ∈RM

b • µ mit ATµ ≥ c, µ ≥ 0.

Betrachten wir die Zielfunktion des dualen Programmes, lässt sich dieses wiefolgt interpretieren:Wirwollen der Firma alle Ausgangssto�e zuminimalenKos-ten µm abkaufen. Damit die Firma das Angebot annimmt, muss sie mehr für dieAusgangssto�e als für das fertige Produkt erhalten. Mathematisch bedeutet dies

M∑

m=1

am,n µm ≥ cn,

was gerade den Nebenbedingungen im dualen Programm entspricht. Die Varia-blen µm werden Schattenpreise genannt und spiegeln den Wert der Ausgangs-sto�e wieder. �

Satz 11.3 (Symmetrie). Das duale Problem des dualen Problems (D) ist das pri-male Problem.


11. Das duale lineare Programm 47

Beweis. Um das duale Problem zu dualisieren, überführen wir dieses zunächstin die Standardform. Dafür substituierenwir die freien Variablenmit y ≔ y1−y2

und y1 ≥ 0, y2 ≥ 0. Das duale Problem erhält damit die Form

miny1,y2∈RM

z∈RN

(−bT, bT, 0) *.,y1

y2

z

+/- mit (AT,−AT, I )

*.,y1

y2

z

+/- = c, y1,y2, z ≥ 0.

Das duale Problem des dualen Problems ist nach De�nition

maxx′∈RN

λ∈R3M

c • x′ mit*.,A

−AI

+/- x′ + λ = *.

,−bb

0

+/- , λ ≥ 0.

Fassenwir die dualen Variablenλ als Schlupfvariablen auf, erhaltenwir das äqui-valente Problem

maxx′∈RN

c • x′ mit Ax′ = −b, x′ ≤ 0,

welches mit der Substitution x′ ≔ x gerade den ursprünglichen primalen Pro-blem

minx∈RN

c • x mit Ax = b, x ≥ 0

entspricht. �

Die Zielfunktionswerte des primalen und dualen Problems haben eine engeBeziehung zueinander. Genauer liefert jeder Zielfunktionswert des dualen Pro-blems eine untere Schränke für den Zielfunktionswert des primalen Problemsund andersherum jeder Zielfunktionswert des primalen Problems eine obereSchranke für den Zielfunktionswert des dualen Problems. Diese Beziehung wirim Allgemeinen als schwache Dualität bezeichnet.

Satz 11.4 (Schwache Dualität). Sind die Punkte x und y zulässig für das pri-male Programm (P) und für das duale Programm (D), dann gilt

c • x ≥ b • y.

Beweis. Die schwache Dualität folgt direkt aus der De�nition des dualen Pro-grammes. Genauer erhalten wir aufgrund der Nicht-Negativität x ≥ 0 und den



dualen Nebenbedingungen ATy ≤ c zusammen mit der GleichheitsbedingungAx = b die Ungleichung

c • x ≥ ATy • x = y •Ax = y • b. �

Jeder zulässige Punktx des primalen Problems liefert somit eine Abschätzungdes Zielfunktionswertes des dualen Problems und umgekehrt.

Korollar 11.5. Ist der Zielfunktionswert des primalen oder dualen Problems un-beschränkt, dann existiert kein zulässiger Punkt des anderen Problems.

Beweis. Angenommen es gibt einen zulässigen Punkt (y, z) des dualen Pro-blems, dann ist das primale Problem nach unten beschränkt durch b •y. Analogliefert jeder zulässige Punkt x des primalen Problems eine obere Schranke fürdas duale Problem. Durch Kontraposition folgen die beiden Behauptungen. �

Korollar 11.6. Sind x∗ und y∗ zulässige Lösungen des primalen Problems (P) unddualen Problems (D), welche zusätzlich die Gleichung

c • x∗ = b • y∗ (11.1)

erfüllen, dann sind x∗ und y∗ Optimallösungen.

Beweis. Aus der schwachenDualität (Satz 11.4) folgt für jeden zulässigen Punktx des primalen Problems

c • x ≥ b • y∗ = c • x∗.

Somit ist x∗ optimal für das primale Programm. Analog ist y∗ optimal für dasduale Programm. �

Als nächstes zeigen wir, dass es für jede optimale Lösung x∗ des primalenProgrammes einen zulässigen Punkt y∗ gibt, der die Gleichung (11.1) in Korol-lar 11.6 erfüllt. Insbesondere muss y∗ somit optimal sein. Eine analoge Aussagegilt für jede Optimallösung y∗ des dualen Programmes. Dieser enge Zusammen-hang zwischen den primalen und dualen Programm wird mit starker Dualitätbezeichnet.


11. Das duale lineare Programm 49

Satz 11.7 (Starke Dualität). Wenn das primale oder das duale Problem eine op-timale Lösung besitzt, dann hat das andere Problem ebenfalls eine optimale Lösungund die zugehörigen Zielfunktionswerte sind gleich.

Beweis. Angenommen, es gibt eine optimale zulässige Lösung des primalenProblems. Nach dem Fundamentalsatz der linearen Optimierung (Satz 3.5) gibt eseine optimal zulässige Basislösung, deren Basis wir im folgenden mitB bezeich-nen. Nach Satz 7.2 sind daher die zugehörigen relativen Kostenkoe�zienten

rTN = cTN − cTBB−1N ≥ 0

nicht negative und die Basisvariablen sind gegeben durch

x∗B = B−1b ≥ 0,

siehe beispielsweise Tabelle 10.1 auf Seite 39.

Als nächstes zeigen wir, dass der Vektor y∗ ≔ B−TcB eine zulässige Lösungdes dualen Programmes ist. Dazu betrachten wir die Gleichung

ATy∗ − c =(

BT

NT

)

y∗ −(

cBcN

)

.

Nach De�nition von y∗ gilt für den ersten Block auf der rechten Seite BTy∗ −cB = 0. Der zweite BlockNTy∗−cN entspricht gerade den negativen relativenKostenkoe�zienten. Insgesamt erfüllt der Punkt y∗ daher die Ungleichung

ATy∗ − c ≤ 0

und ist somit zulässig. Darüber hinaus erfüllt y∗ die Gleichung

c • x∗ = cB • x∗B = cB •B−1b = b • y∗.

NachKorollar 11.6 die zulässige Lösungy∗ somit optimal für das duale Programm.

Aus der Symmetrieeigenschaft (Satz 11.3) folgt die Aussage analog für jedeoptimale zulässige Lösung des dualen Problems. �

Als eine erste Anwendung der Dualitätstheorie beweisen wir das Lemma vonFarkas, welches eine notwendige und hinreichende Bedingung dafür liefert,dass der zulässige Bereich eines (primalen) linearen Programmes nicht leer ist.



Lemma 11.8 (Farkas). Es seien die Matrix A ∈ RM×N mit rank(A) = M undder Vektor b ∈ RM gegeben. Der zulässige Bereich

K ≔ {x ∈ RN : Ax = b,x ≥ 0}

ist genau dann nicht leer, wenn

b • y ≥ 0 für alle y ∈ {y ∈ RM : ATy ≥ 0}.

Beweis. Um die Dualitätstheorie anwenden zu können, betrachten wir das pri-male Minimierungsproblem

minx∈RN

0 • x mit Ax = b, x ≥ 0

mit der konstanten Null-Funktion als Zielfunktion und dem zulässigen BereichK aus der Behauptung. Das zugehörige duale Programm ist hier gegeben durch

maxy′∈RM

b • y′ mit ATy′ ≤ 0.

Wir nehmen zunächst an, dass der zulässige Bereich nicht leer ist und es somiteine optimale zulässige Lösung des primalen Problems mit Zielfunktionswert 0gibt. Aus der schwache Dualität (Satz 11.4) gilt somit für jeden zulässigen Punkty′ im zulässigen Bereich {y′ ∈ RM : ATy′ ≤ 0} des dualen Programmes

0 ≥ b • y′.

Setzen wir y ≔ −y′ erhalten wir

b • y ≥ 0 für alle y ∈ {y ∈ RM : ATy ≥ 0}

und somit die erste Richtung von Farkas’ Lemma.

Gilt andererseits für alle Punkte y ∈ {y ∈ RM : ATy ≥ 0} die Ungleichungb • y ≥ 0, dann können wir die Zielfunktion des dualen Programmes für allezulässigen Punkte y′ ∈ {y′ ∈ RM : ATy′ ≤ 0} abschätzen durch

b • y′ ≤ 0.

O�ensichtlich wir die obere Schranke vom Null-Vektor 0 angenommen, womit0 eine optimale zulässige Lösung des dualen Programmes ist. Aus der starkenDualität (Satz 11.7) folgt nun die Existenz einer zulässige optimale Lösung des


12. Optimalitätsbedingungen 51

primalen Problems, womit der zulässige Bereich K nicht leer sein kann. Somithaben wir auch die Rückrichtung von Farkas’ Lemma bewiesen. �

12. Optimalitätsbedingungen

Basierend auf den Dualitätssätzen werden wir im Folgenden eine Reihevon Bedingungen abgeleitet, die uns unmittelbar erlauben für beliebige

Punkte x ∈ RN oder (y, z) ∈ RM × RN die Optimalität für das primale undduale Programm

minx∈RN

c • x mit Ax = b, x ≥ 0 (P)

undmaxy∈RM

z∈RN

b • y mit ATy + z = c, z ≥ 0 (D)

festzustellen. Hierfür werden wir die Dualitätslücke und die Komplementaritätzwischen den primal- und dual-zulässigen Lösungen verwenden.

Definition 12.1 (Dualitätslücke). Es seien x und (y, z) zulässige Lösungenvon (P) und (D). Der Abstand

c • x − b • y

heißt Dualitätslücke zwischen x und (y, z).

Definition 12.2 (Komplementarität). Es seien x und (y, z) zulässige Lösun-gen von (P) und (D). Wenn

x • z = 0,

dann sind x und (y, z) komplementär. Gilt zusätzlich x + z > 0, dann sind x

und z strikt komplementär. Das Skalarprodukt x •z zwischen den primalen unddualen Variablen bildet das komplementäre Residuum.

Zunächst zeigen wir, dass die Dualitätslücke und das komplementäre Residu-um für beliebige primale und duale zulässige Lösungen übereinstimmt.



Lemma 12.3. Die Dualitätslücke und das komplementäre Residuum zwischen x

und (y, z) sind äquivalent. Die zulässigen Lösungen x und (y, z) sind genau dannkomplementär, wenn die Dualitätslücke null ist.

Beweis. Aus der Zulässigkeit Ax = b und ATy + z = c der primalen unddualen Lösungen x und (y, z) folgt unmittelbar die Behauptung

c • x − b • y = x • c − (Ax) • y = x • (c −ATy) = x • z.

Der zweite Teil der Behauptung folgt nun direkt aus der De�nition der Komple-mentarität. �

Unter Berücksichtigung der Nicht-Negativitätsbedingungen für x ≥ 0 undz ≥ 0 sind die zulässigen Lösungen x und (y, z) genau dann komplementär,wenn xn zn = 0 für n = 1, ....N . Ist eine Komponente xn oder zn (strikt) positiv,dann muss die andere Variable gleich 0 sein. Insbesondere kann niemals eineprimale Variable xn zusammen mit der zugehörigen dualen Variable zn ungleichnull sein. Basierend auf der Komplementarität erhalten wir nun die folgendenOptimalitätsbedingungen.

Satz 12.4 (Opimalitätsbedingungen). Der Punktx ist genau dann optimal fürdas primale Problem (P), wenn ein Vektor (y, z) existiert mit

(i) Ax = b [primale Zulässigkeit]

(ii) ATy + z = c, z ≥ 0 [duale Zulässigkeit]

(iii) x • z = 0 [Komplementarität]

Insbesondere ist (y, z) eine Optimallösung für das duale Problem (D).

Beweis. Wir nehmen zunächst an, dass die drei Optimalitätsbedingungen er-füllt sind. Damit müssen x und (y, z) o�ensichtlich zulässige Lösungen desprimalen und dualen Problems (P) und (D) sein. Die Optimalität folgt aus derÄquivalenz zwischen der Dualitätslücke und dem komplementären Residuum,beziehungsweise aus

x • z = c • x − b • y = 0

zusammen mit Korollar 11.6.


13. Der duale Simplex-Algorithmus 53

Für die Rückrichtung, nehmen wir an, dass x eine optimale Lösung ist, wo-mit bereits (i) gelten muss. Nach der starken Dualität (Satz 11.7) existiert einezulässige optimale Lösung (y, z) des dualen Problem mit

c • x − b • y = x • z = 0.

Damit erhalten wir die verbleibenden Optimalitätsbedingungen (ii) und (iii), �

Die Aussage von Satz 12.4 kann auf die strikte Komplementarität der primalenund dualen Lösung erweitert werden. Den Beweis werden wir jedoch aufschie-ben.

Satz 12.5 (Goldman und Tucher 1956). Wenn das Paar x und (y, z) optimaleLösungen von (P) und (D) sind, dann existiert ein Paarx′ und (y′, z′) von optimalenLösungen die strikt komplementär sind.

Diewesentliche Beobachtunghinter denOptimalitätsbedingungen in Satz 12.4ist, dass jeder Algorithmus, der das primale Problem löst, auch das duale Problemlöst. Analog gilt natürlich eine analoge Beobachtung für die Rückrichtung. Wiewir bereits im Beweis vom Satz 11.7 gesehen haben, erhalten wir die zugehörigeduale Lösung (y, z) bezügliche der primalen Lösung

x∗B = B−1b und x∗N = 0

durchy∗ = B−TcB und z∗ = c −ATy∗.

13. Der duale Simplex-Algorithmus

Mit Hilfe der Dualitätstheorie könnenwir den Simplex-Algorithmus aufdas duale Programm übertragen. Der resultierende Algorithmus ist in

vielen Anwendungen e�ektiver und das Au�nden einer ersten zulässigen Lö-sung oft wesentlich einfacher. Der duale Simplex-Algorithmus ist darüber hin-aus die Grundlage für die ganzzahlige Optimierung. Wie zuvor betrachten wirdie primalen und dualen Optimierungsprobleme

minx∈RN

c • x mit Ax = b, x ≥ 0 (P)



undmaxy∈RM

z∈RN

b • y mit ATy + z = c, z ≥ 0. (D)

Die zugehörigen Simplex-Tableaus haben die Form

xT

A b

cTund

yT zT

AT I c

bT 0 .

Fassen wir die beiden Tableaus zusammen, erhalten wir das erweiterte Tableau

xTB

xTN

y B N b

zB I 0 0

zN 0 I 0

cTB

cTN

.

Dieses Tableau repräsentiert die primale Basislösung (xB,xN ) = (B−1b, 0) zur(regulären) Basis B. Als Basis für das duale Problem wählen wir die reguläreMatrix (

BT0

NT I

)

Die zulässige duale Basislösung ist somit gegeben durch

y = B−TcB,

zN = cN −NTB−TcN = rN ,

zB = 0,

(13.1)

wobei rN wieder die relativen Kostenkoe�zienten bezeichnen.

Aufgrund der speziellen Basiswahl für das duale Simplex-Tableau erfüllen diezugehörigen Basislösungen (xB,xN ) und (y, zB, zN ) immer die Komplemen-taritätsbedingung . Insbesondere ist die duale Basislösung genau dann zulässig,wenn z ≥ 0. Basierend auf dieser Beobachtung, nennenwir ein Simplex-Tableauder Form

xTB

xTN

I N b

0T rT

N

(13.2)

mit rN ≥ 0 dual-zulässig.



Im folgenden nehmen wir an, dass das Simplex-Tableau (13.2) zwar dual-zu-lässig (rN ≥ 0) ist, aber nicht primal-zulässig (b � 0). Die Idee hinter dem dua-len Simplex-Algorithmus ist die Konstruktion einer Reihe von dual-zulässigenBasislösungen mit wachsenden dualen Zielfunktionswert. Sobald wir das dualeProgramm auf diese Weise gelöst haben, erhalten wir aufgrund der Dualitäts-theorie ebenfalls eine Lösung für das primale Programm. Das Simplex-Tableau(13.2) wird schlussendlich somit primal-zulässig.

Um das duale Programm zu optimieren, verwenden wir eine alternative Pi-vot-Strategie, welche grob dem Simplex-Algorithmus auf dem transponiertenTableau entspricht. Genauer wählen wir zunächst eine duale Pivot-Zeile mit In-dex

p ∈ argmin{bm :m = 1, ...,M

}Aufgrund der Nicht-Zulässigkeit des Simplex-Tableaus (13.2) existiert mindes-tens eine negative Komponente bp . Der gewählte Pivot-Zeile besitzt somit immereine negative rechte Seite. Für die duale Pivot-Spalte verwenden wir den Index

q ∈ argmin

{

− (rN )n

ap,n: ap,n < 0,n = M + 1, ...,N

}

.

Bei der Wahl der Pivot-Spalte berücksichtigen wir nur die Nicht-Basisvariablendes aktuellen Tableaus.

Lemma 13.1. Das Simplex-Tableau (13.2) sei dual-zulässig (rN ≥ 0) mit bp < 0.Ist die Indexmenge

{n ∈ {M + 1, . . . ,N } : ap,n < 0}

leer, dann ist das primale Problem nicht lösbar.

Beweis. Aufgrund der Voraussetzungen ist die zugehörige duale Basislösungzum Simplex-Tableau (13.2) zulässig. Wir nehmen nun an, dass das primale Pro-gramm eine Lösung besitzt und somit nach Satz 11.4 das duale Programm be-schränkt ist. Insbesondere existiert in dieser Situation eine duale optimale Lö-sung. Aufgrund der starken Dualität (Satz 11.7) gibt es nun ebenfalls eine opti-male Lösungx∗ des primalen Problemsmitx∗ ≥ 0 undAx∗ = b. Wir betrachtennun die zugehörige Gleichung zur p-ten Spalte

x∗p +N∑

n=M+1

ap,n x∗n = bp



des Simplex-Tableaus (13.2) genauer. Nach Annahme sind alle Komponenten ap,nnicht negativ, was allerdings einen Widerspruch zur Negativität von bp liefert.Somit kann in diesem Fall keine zulässige Lösung existieren. �

Analog zum primalen Simplex-Algorithmus liefert der Basiswechsel zwischender Basisvariablen xp und der Nicht-Basisvariablen xq wieder ein dual-zulässi-ges Simplex-Tableau. Damit bleiben die Voraussetzungen für den dualen Sim-plex-Algorithmus nach jeder Iteration erhalten und wir können den Algorith-mus fortführen. Die Zielfunktionswerte der zugehörigen Tableaus ändern sichentsprechend der Gleichung

−fB= −fB −

(rN )q

ap,qbp ≤ −fB .

Obwohl wir ein Minimierungsproblem betrachten, wird der Zielfunktionswertsomit in jedem Schritt vergrößert. Hierbei ist allerdings zu beachten, dass dieBasislösung (xB,xN ) des zugehörigen dual-zulässigen Simplex-Tableaus nichtprimal-zulässig war. Ähnlich zur primalen Nicht-Degeneriertheit, nennen wirdas Simplex-Tableau (13.2) nicht dual-degeneriert, wenn die relativen Zielfunk-tionskoe�zienten rN > 0 erfüllen. In diesem Fall, wird der Zielfunktionswertstrikt vergrößert.

Algorithmus 13.2 (Dualer Simplex-Algorithmus).Voraussetzungen:


• rank(A) = M .

(1) Bilde das Tableau (13.2) zu einer dual-zulässigen Basislösung. (Die Spalten

dürfen permutiert sein.)

(2) Falls bm ≥ 0 fürm = 1, ...,M , beende den Algorithmus.


(3) Wähle ein p mit bp < 0. (Neue Nicht-Basisvariable xp .)

(4) Berechne −(rN )n/ap,n für alle ap,n < 0, wobei nur Nicht-Basisvariablen be-

rücksichtigt werden.

• Falls ap,n ≥ 0 für alle n = 1, ...,N , dann ist der zulässige Bereich leer

und es existiert keine Lösung!

→ STOP



• Andernfalls wähle ein q mit

− (rN )qap,q= min

{− (rN )n

ap,n: ap,n < 0,xn Nicht-Basisvariable

}.

(5) Führe den Basiswechsel mit Hilfe derGauss-Elimination für die q-te Spal-

te durch. (Inklusive der letzten Zeile).


Bemerkung 13.3. Standardmäßigwird bei der Ausführung des dualen Simplex-Algorithmus die Pivot-Zeile mit der kleinsten rechten Seite bp gewählt. �

Bemerkung 13.4. Trotz der o�ensichtlichen Ähnlichkeit des dualen Simplex-Algorithmus zum primalen Simplex-Algorithmus, entspricht Algorithmus 13.2nicht dem Simplex-Verfahren für das duale Problem. Insbesondere sind die Va-riablen des dualen Programmens, welche zum transponierten Tableau gehören,frei und nicht durch Nicht-Negativitätsbedingungen eingeschränkt. �

Beispiel 13.5. Um den dualen Simplex-Algorithmus zu veranschaulichen, be-trachten wir das lineare Optimierungsproblem

minx≥0

x1 + 2x2 + x3 mit 2x1 + x2 + x3 − x4 = 1,

x1 + 4x2 + x3 ≥ 2,

x1 + 3x2 ≤ 4.

Um das Verfahren anwenden zu können, bringen wir das Minimierungsproblemzunächst wieder auf die Standardform. Das zugehörige Simplex-Tableau hat hierdie Form

x1 x2 x3 x4 x5 x6 b

−2 −1 −1 1 0 0 −11 −4 −1 0 1 0 −21 3 0 0 0 1 4

1 2 1 0 0 0 0

/ 1/2 1 Q ,

welches dual-zulässig ist. In der ersten Iteration von Algorithmus 13.2 wählenwir x5 als neue Nicht-Basisvariable beziehungsweise die zweite Zeile als Pivot-Zeile. Nachdemwir die Quotienten in Schritt (4) bestimmt haben, siehe die letzteZeile im Tableau, wählen wir die zweite Spalte als Pivot-Spalte.



Nach Anwenden der Gauss-Elimination, in welcher wir die Basisvariable x5gegen die Nicht-Basisvariable x2 tauschen, erhalten wir das neue Tableau

x1 x2 x3 x4 x5 x6 b

−9/4 0 −3/4 1 −1/4 0 −1/2−1/4 1 1/4 0 −1/4 0 1/27/4 0 −3/4 0 3/4 1 5/2

3/2 0 1/2 0 1/2 0 −12/3 2/3 2 Q .

Als nächste Pivot-Zeile wählen wir die einzige Zeile mit negativer rechter Seite,welche der Basisvariablen x4 entspricht. Da die Quotienten in der letzten Zeilekein eindeutiges Minimum besitzen, können wir sowohl x1 als auch x3 in dieBasis tauschen. Wir entscheiden uns hier für die erste Spalte als Pivot-Spalteund damit für x1. Nach dem Basistausch erhalten wir das Simplex-Tableau

x1 x2 x3 x4 x5 x6 b

1 0 1/3 −4/3 1/9 0 7/3

0 1 1/3 −1/9 −2/9 0 5/9

0 0 −4/3 7/9 5/9 1 19/9

0 0 0 2/3 1/3 0 −4/3 .

Im letzten Tableau ist die rechte Seite ebenfalls nicht negativ, womit das Simplex-Tableau primal- und dual-zulässig ist. Die zugehörige primale Optimallösung istsomit x = (2/9, 5/9, 0, 0). �

Analog zum primalen Simplex-Algorithmus können wir den dualen Simplex-Algorithmus in eine revidierte Variante überführen, bei welcher in jedem Schrittnur die benötigten Einträge des Simplex-Tableaus berechnet werden. Hierfürverwendenwirwieder die Beziehungen zwischen dem Simplex-Tableau und demrevidierten Tableau in Tabelle 10.1 auf Seite 39.

Algorithmus 13.6 (Revidierter dualer Simplex-Algorithmus).Voraussetzungen:


• rank(A) = M ,

• dual-zulässige Basis B ∈ RM×M ,

• B−1 ∈ RM×M , xB = B−1b und fB = cB • xB ,



• rN = cN −NTB−TcB .

(1) Falls xB ≥ 0, beende den Algorithmus.


(2) Wähle p mit (xB )jp < 0 (Neue Nicht-Basisvariable xjp .)

(3) Berechne σN =NTB−Tep (Pivot-Zeile für Nicht-Basisvariablen) und die

�otienten −(rN )n/(σN )n für alle (σN )n < 0.

• Falls σN ≥ 0 ist, dann ist der zulässig Bereich leer und es existiert

keine Lösung!

→ STOP

• Andernfalls wähle ein q mit

β := − (rN )jq(σN )jq

= min{− (rN )n

(σN )n: (σN )n < 0

}.

(4) Setze (rN )jp = β , rN = rN + βσN und fB = fB − β (xB )jp

(5) Berechne die Pivot-Spalte Aq = B−1Aq . Setze α ≔ (xB )jp/(σN )jpq und

anschließend xq = α sowie

xB =

(

xjn −a jn,q(σN )jq

(xB )jp

)M

n=1= xB − αAq

(6) Berechne B−1 mit Hilfe von (10.3).→Weiter mit Schri� (1).

Beispiel 13.7. Um den revidierten dualen Simplex-Algorithmus zu anzuwen-den, betrachten wir wieder das Optimierungsproblem mit der Standardform

x1 x2 x3 x4 x5 x6 b

−2 −1 −1 1 0 0 −11 −4 −1 0 1 0 −21 3 0 0 0 1 4

1 2 1 0 0 0 0

aus Beispiel 13.5. Für die erste Basislösung wählen wir die Basisvariablen x4, x5und x6. Die erste Basis ist somit die Einheitsmatrix. Um das duale revidierte Sim-



plex-Verfahren durchzuführen, verwenden wir die beiden Tableaus

BV B−1 b Ax2

x4 1 0 0 −1 −1x5 0 1 0 −2 −4x6 0 0 1 4 3

NB x1 x2 x3rN 1 2 1

σN 1 −4 −1Q / 1/2 1 .

Nach Berechnung der rechten Seite b = B−1b, müssenwir im nächsten Schrittx5 aus der Basis entfernen. Als nächstes berechnen wir die Vektoren rN =

cN − NTB−TcB und σN = NTB−Te2. Vergleichen wir die negativen Quo-tienten zwischen rN und σN , müssen wir die Nicht-Basisvariable x2 in die Ba-sis aufnehmen. Um den Basiswechsel durchzuführen bestimmen wir die Pivot-Spalte Ax2 = B−1Ax2 . Die neue Basis erhalten wir durch Gauss-Elimination be-züglich der berechneten Pivot-Spalte. Die neuen relativen Kostenkoe�zientensind rN = rN + βσN und (rN )x5 = β mit β = 1/2. Die neue rechte Seite unddie neuen Basisvariablen berechnen wir durch b = b − αAx5 sowie x2 = α mitα = 1/2. Die aktualisierten Tableaus haben die Form

BV B−1 b Ax1

x4 1 −1/4 0 −1/2 −4/9x2 0 −1/4 0 1/2 −1/4x6 0 3/4 1 5/4 7/4

NB x1 x5 x3rN 3/2 1/2 1/2

σN −9/4 −1/4 −3/4Q 2/3 2 2/3 .

Im nächsten Schritt des revidierten dualen Simplex-Algorithmus entfernenwir x4 aus der Basis. Als neue Basisvariable können wir entweder x1 oder x3wählen, wobei wir uns wie in Beispiel 13.5 für x1 entscheiden. Wiederholen wirdie obigen Schritte mit β = 2/3 und α = 2/9, erhalten wir die aktualisierten Table-aus

BV B−1 b

x1 −4/9 1/9 0 2/9

x2 −1/9 −2/9 0 5/9

x6 7/9 5/9 1 19/5

NB x4 x5 x3rN 2/3 1/3 0 .

Insbesondere ist die neue rechte Seite nicht negativ, womit der revidierte dualeSimplex-Algorithmus mit der primalen Optimallösung x = (2/9, 5/9, 0, 0) endet.

�

Als nächstes untersuchenwir, was exakt in einer Iteration des dualen Simplex-Algorithmus passiert und warum der Algorithmus eine optimale Lösung des pri-malen und dualen Programmes bestimmt. Hierzu betrachten wir eine alternative



Herleitung der dualen Iteration, wobei wir wieder von der Standardform

maxy∈RM

z∈RN

b • y mit ATy + z = c

ausgehen. Wie wir bereits in (13.1) festgestellt haben, gehört zu jeder Basislö-sung (xB,xN ) = (B−1b, 0) des primalen Programmes zur Basis B die dualeBasislösung

y = B−TcB, zB = 0 and zN = rN ≥ 0.

Die primale und duale Basislösung sind über das gemeinsame Simplex-Tableaumiteinander verbunden.

Unter der Voraussetzung, dass das zugehörige Tableau dual-zulässig ist, habenwir insbesondere eine zulässige duale Basislösung. Ist die primale Basislösungebenfalls zulässig, dann erfüllen x und (y, z) die Optimalitätsbedingungen inSatz 12.4 und beide Lösungen sind optimal. Andernfalls können wir immer ein pmit bp = (xB )jp < 0 �nden, für welches wir den Vektor h ≔ B−Tep de�nieren.Der Vektor h entspricht also gerade der p-ten Zeile der inversen Basis. Setzenwir den negativen Vektor −h in die duale Zielfunktion ein, erhalten wir

−b • h = −b • (B−Tep ) = −ep • (B−1b) = −(xB )jp > 0,

wobei jp wieder den Index der Basisvariable zur p-ten Zeile des Simplex-Table-aus bezeichnet. Somit ist der Vektor −h eine Aufwärtsrichtung für die dualeZielfunktion д(y) = b • y an jedem beliebigen Punkt y ∈ RM .

Wir konstruieren nun eine bessere Lösung des dualen Problems, indem wiruns ausgehend von der dualen Basislösung (y, z) in Richtung −h bewegen. Dieneue Lösung hat also die Form

y = y − βh

Damit die neue Lösung (y, z) mit z = c−Ay zulässig ist, müssen zusätzlich dieBedingungen

zB = cB −BTy = cB −BT(y − βh) = βep ≥ 0

und

zN = cN −NTy = cN −NT(y − βh) = zN + βNTh



= rN + βNTB−Tep

︸︷︷︸Pivot-Zeile

= rN + βσN︸︷︷︸neuer relativer

Kostenkoe�zient

≥ 0

erfüllt sein.

Ist die aktuelle Pivot-Zeile σN = eTpB−1N nicht negativ, dann ist das dua-

le Problem o�ensichtlich unbeschränkt, da wir die duale Zielfunktion in Rich-tung −h beliebig vergrößern können. In diesem Fall ist das zugehörige primaleProblem unzulässig und besitzt keine Lösung. Vergleiche Lemma 13.1 und Korol-lar 11.5. Besitz die Pivot-ZeileσN mindestens eine positive Komponente, wählenwir β unter der Bedingung, dass die neue Lösung (y, z) zulässig ist, möglichstgroß, was genau dem dritten Schritt von Algorithmus 13.6 entspricht.

Um den Zusammenhang zwischen der neue zulässige Lösung y und dem dua-len Simplex-Algorithmus zu verstehen, untersuchen wir die neue Lösung y ge-nauer. Hierbei nutzen wir aus, dass wir β = −(rN )jq/(σN )jq für ein q gewählthaben. Durch sukzessives Umformen erhalten wir die Identität

y = y − βh = B−T(

cB +(rN )jq(σN )jp

ep)

= B−T

*........,

(cB )1...

(cB )p +1

ap,q(cN −NTB−TcB )q...

(cB )M

+////////-

= B−T

*..........,

(cB )1...

(cB )p +1

ap,q

(

(cN )q −M∑

n=1an,q (cB )n

)

...

(cB )M

+//////////-

= B−T

*............,

(cB )1...

1ap,q

(

(cN )q −M∑

n=1n,p

an,q (cB )n)

...

(cB )M

+////////////-R. Beinert, C. Kloner


= B−T

*.........,

1. . .

− a1,qap,q. . . 1

ap,q. . . − aM,q

ap,q. . .

1

+/////////-cB

= B−TETp cB = B−Tc

B,

wobei wir in der letzten Zeile Gleichung (10.3) verwenden. Die neue Basis Bentspricht hierbei der alten BasisB mit der Nicht-Basisvariable (xB )jq anstellevon (xB )jp .

Insgesamt erhalten wir nach Verbesserung des dualen Zielfunktionswert eineneue duale Basislösung (y, z) mit den neuen Basisvariablen

(xj1, . . . ,xjp−1,xq,xjp+1, . . . ,xjM ).

Diese Basislösung entspricht gerade dem neuen Simplex-Tableau nach dem Ba-siswechsel zwischen xjp and xq in Algorithmus 13.6. Somit entspricht jede Ite-ration von Algorithmus 13.2 und 13.6 der schrittweisen Optimierung des dualenProblems. Der Basiswechsel im primalen Simplex-Tableau entspricht hierbei ge-rade dem zulässigen Basiswechsel zwischen den dualen Variablen zjp and zq .

Ähnlich zum primalen Simplex-Algorithmus wird der duale Zielfunktions-wert eines nicht dual-degenerierten Simplex-Tableaus strikt verbessert. Sind al-le Basislösungen nicht dual-degeneriert, bricht der duale Simplex-Algorithmusnach endlich vielen Iterationen ab.

Satz 13.8 (Abbruch der dualen Simplex-Iteration). Unter der Voraussetzung,dass alle Simplex-Tableaus nicht dual-degeneriert sind, dann brichtAlgorithmus 13.2beziehungsweise 13.5 nach endlich vielen Schritten mit einem primal-zulässigenSimplex-Tableau oder mit Feststellung der Unzulässigkeit ab.

Beweis. Aufgrund der Nicht-Dual-Degeneriertheit wird bei jedem Basiswech-sel der duale Zielfunktionswert strikt verbessert. Da der zulässige Bereich nurendlich viele Extremalpunkte oder zulässige Basislösungen besitzt, stellen wirnach endlich vielen Schritten die Unzulässigkeit fest oder enden mit einer dua-len Optimallösung. Angenommen die duale Optimallösung ist nicht primal-zu-lässig, dann gibt es, wie bei der alternativen Herleitung des dualen Algorithmusbesprochen, eine Richtung −h, in welcher der dualen Zielfunktionswert vergrö-ßert wird, was allerdings der dualen Optimalität widerspricht. Somit muss das



zugehörige Simplex-Tableau zur dualen Optimallösung ebenfalls primal-zuläs-sig sein. Insbesondere ist die entsprechende primale Basislösung somit ebenfallsoptimal. �

14. Ganzzahlige Optimierung

Bisher haben wir immer vorausgesetzt, dass die Variablen x des prima-len Optimierungsproblems kontinuierlich waren beziehungsweise jedem

beliebigenWert inRN annehmen können. In vielenAnwendungen, wie zum Bei-spiel bei Transportplänen (Beispiel 2.2), können die Variablen jedoch nur ganz-zahlige Werte annehmen. Um lineare Programme der Form

minx∈ZN

c • x mit Ax = b, x ≥ 0 (14.1)

mit ganzzahligen Variablen x ∈ ZN numerisch zu lösen, bestimmen wir mitHilfe des Simplex-Algorithmus zunächst eine reelle Optimallösung und erzwin-gen die Ganzzahligkeit durch sukzessives Einfügen von geeigneten Nebenbe-dingung. Der erste Schritt wird hierbei die Relaxation des linearen Programmesgenannt.

Definition 14.1 (LP-Relaxation). Die LP-Relaxation des ganzzahligen Opti-mierungsproblem (14.1) ist das lineare Programm (14.1) ohne die Ganzzahligkeits-bedingung x ∈ ZN .

Beispiel 14.2. Im Folgenden betrachten wir das ganzzahlige lineare Programm

minx∈Z2−2x1 − 5x2 mit 2x1 + 3x2 ≤ 12,

x1 + x2 ≤ 5,

x2 ≤ 3,

x1,x2 ≥ 0.

(14.2)

Die Ungleichungsnebenbedingungen und der zulässige Bereich dieses Optimie-rungsproblems werden in Abbildung 14.1 auf der anderen Seite gra�sch darge-stellt. Die ganzzahlige Optimallösung ist o�ensichtlich x = (1, 3). Beim relaxier-ten Optimierungsproblem wird die ganzzahlige Nebenbedingung x ∈ Z2 durchx ∈ R2 ersetzt. Die Optimallösung des relaxierten Problems ist in diesem Bei-spiel x = (3/2, 3). Eine einfache Rundung auf den nächsten ganzzahligen Punkt


14. Ganzzahlige Optimierung 65

x11 2 3 4 5 6

x2

1

2

3

4

5

x1 + x2 ≤ 5 2x1 + 3x2 ≤ 12

x2 ≤ 3

c • x = −17

GanzzahligeOptimallösung

RelaxierteOptimallösung

Abbildung 14.1.: Optimallösung und relaxierte Optimallösung des ganz-

zahligen Optimierungsproblems in (14.2). Die blauen

Punkte bilden den zulässigen Bereich des ganzzahligen

Problems.

(Aufrunden der ersten Komponente) führt in diesem Beispiel nicht zur optima-len ganzzahligen Lösung. Genauer kann der Abstand zwischen der gerundetenrelaxierten und der ganzzahligen Optimallösung beliebig groß sein. �

Definition 14.3 (Zulässige Schni�ebene). Eine zulässige Schnittebene ist ei-ne Ungleichung, die von allen ganzzahligenLösungen erfüllt wird, aber nicht vonder relaxierten Lösung.

Um das ganzzahlige lineare Programm (14.1) zu lösen, bestimmen wir die re-ellen Lösungen einer Reihe von relaxierten Optimierungsproblemen, wobei wirschrittweise zulässige Schnittebenen hinzufügen. Wie können wir jedoch aus-gehend von einer relaxierten Optimallösung eine zulässige Schnittebene bestim-men?Angenommen die Basisvariablexp einer relaxiertenOptimallösung ist nicht

ganzzahlig. Der Einfachheit setzen wir wieder A = (I, N ) voraus. Im allgemei-nen Fall können die Spalten natürlich beliebig permutiert sein. Betrachten wirdie p-te Zeile, dann gilt insbesondere

xp +

N∑

n=M+1

ap,n xn = bp (14.3)



mit bp > 0 und bp < Z. Nachfolgend bezeichnen wir die nicht ganzzahligenAnteile der MatrixA und der rechten Seite b mit

αp,n := ap,n − ⌊ap,n⌋

undβp := bp,n − ⌊bp⌋,

wobei ⌊·⌋ die größte ganze Zahl kleiner als · ist. O�ensichtlich gilt für die ge-wählte p-te Zeile immer

0 ≤ αp,n < 1 und 0 < βp < 1.

Teilen wir die Koe�zienten in der p-ten Zeile in ihre ganzzahligen und nichtganzzahligen Anteile auf und sammeln die ganzzahligen und nicht ganzzahligenAnteile auf verschieden Seiten, erhalten wir die Gleichungen

xp +

N∑

n=M+1

(

⌊ap,n⌋ + αp,n)

xn = ⌊bp⌋ + βp > 0

und

xp +

N∑

n=M+1

⌊ap,n⌋ xn − ⌊bp⌋ = βp −N∑

n=M+1

αp,n xn,

wobei beide Seiten der letzten Gleichung für x ∈ ZN ganzzahlig sein müssen.Aus der Nicht-Negativität αp,n ≥ 0 und xn ≥ 0 sowie der Nicht-Ganzzahligkeit0 < βp < 1 folgt, dass die Ungleichung

βp −N∑

n=M+1

αp,n xn ≤ 0 (14.4)

für alle zulässigen x ∈ ZN erfüllt ist. Für die letzte optimale relaxierte Basislö-sung mit xn = 0 für n = M + 1, ...,N kann diese Ungleichung nicht erfüllt sein,womit (14.4) eine zulässige Schnittebene ist.

Ausgehend von unseren Betrachtungen fügen wir die Schnittebene (14.4) inForm der Gleichung

−N∑

n=M+1

αp,n xn + xN+1 = −βp

zusammenmit der SchlupfvariablenxN+1 ins optimale relaxierte Simplex-Tableau



ein. Da die rechte Seite dieser Gleichung nach Konstruktion immer negativ ist,kann das neue Tableau nicht mehr primal-zulässig sein, bleibt aber immerhindual-zulässig. Mit Hilfe des dualen Simplex-Algorithmus können wir somit dieneue relaxierte Optimallösung des erweiterten Tableaus bestimmen. Ist die Lö-sung ganzzahlig, haben wir eine Optimallösung von (14.1) gefunden. Andernfallssetzenwir die Schnittebenen-Konstruktionweiter fort. Die verwendeten Schnitt-ebenen der Form (14.4) werden auch Gomory-Schnitte genannt.

Beispiel 14.4. Zur Veranschaulichungdes Schnittebenenverfahrens vonGomo-ry betrachten wir das bereits optimale Simplex-Tableau

x1 x2 x3 x4 b

1 0 1/8 −3/8 1/4

0 1 1/8 5/8 25/4

0 0 11/8 7/8 131/4

mit der nicht ganzzahligen optimalen relaxierten Basislösung x = (1/4, 25/4, 0, 0).Zur Konstruktion einer zulässigen Schnittebene verwenden wir die erste Zeileund teilen die ganzzahligen und nicht ganzzahligen Anteile entsprechend unse-ren obigen Beobachtungen auf.

Auf diese Weise erhalten wir die Gleichungen

x1 +18 x3 +

(

−1 + 58

)

x2 =14

oderx1 − x2∈Z

=14 −

18 x3 −

58 x4 .

Die zugehörige Gomory-Schnittebene mit der neuen Schlupfvariablen x5 ist so-mit

− 18 x3 −

58 x4 + x5 = −

14 .

Fügen wir diese Gleichung ins Simplex-Tableau ein, erhalten wir das neue dual-zulässige Tableau

x1 x2 x3 x4 x5 b

1 0 1/8 −3/8 0 1/4

0 1 1/8 5/8 0 25/4

0 0 −1/8 −5/8 1 −1/40 0 11/8 7/8 1 131/4

11 7/5 Q .



DurchAnwenden des duale Simplex-Algorithmus erhaltenwir die relaxierte Op-timallösung x = (2/5, 6, 0, 2/5) mit dem zugehörigen Tableau

x1 x2 x3 x4 x5 b

1 0 1/5 0 −3/5 2/5

0 1 0 0 1 6

0 0 1/5 1 −8/5 2/5

0 0 6/5 0 7/5 162/5 .

Da die Optimallösung immer noch nicht ganzzahlig ist, setzenwir das Schnitt-ebenenverfahrenvonGomoryweiter fort. Zur Konstruktion einer neuen Schnitt-ebene betrachten wir die dritte Zeile, welche wir in der Form

15 x3 + x4 +

(

−2 + 25

)

x5 =25

undx4 − 2x5∈Z

=25 −

15 x3 −

25 x5 ≤ 0

schreiben. Die zugehörige Gomory-Schnittebene ist

− 15 x3 −

25 x5 + x6 = −

25

mit der neuen Schlupfvariablenx6. Als erweitertes Simplex-Tableau erhaltenwir

x1 x2 x3 x4 x5 x6 b

1 0 1/5 0 −3/5 0 2/5

0 1 0 0 1 0 6

0 0 1/5 1 −8/5 0 2/5

0 0 −1/5 0 −2/5 1 −2/50 0 6/5 0 7/5 0 162/5

6 7/2 Q .

Der duale Simplex-Algorithmus liefert das neue primal- und dual-zulässige Ta-bleau

x1 x2 x3 x4 x5 x6 b

1 0 1/2 0 0 −3/2 1

0 1 −1/2 0 0 5/2 5

0 0 1 1 0 −4 2

0 0 1/2 0 1 −5/2 1

0 0 1/2 0 0 7/2 31 .



Die optimale ganzzahlige Lösung ist somit x = (1, 5, 0, 2). �

Bemerkung 14.5. Ein großer Nachteil des Schnittebenenverfahrens von Go-

mory ist, dass mit jeder neuen Schnittebene eine neue Schlupfvariable eingefügtwird, welche den Aufwand für das duale Simplex-Verfahren nach und nach er-höhen. Das Au�nden einer ganzzahligen Lösung kann somit selbst für relativkleine Programme numerisch sehr aufwendig werden. �


Kapitel IV.

Innere-Punkte-Verfahren

15. Das primal-duale Programm

Wird der Simplex-Algorithmus verwendet, um ein lineares Problem inStandardform zu lösen, benötigt man, ausgehend von der ersten zulässi-

gen Basislösung, nur eine kleine Anzahl an Basiswechseln; typischerweise zwi-schen 2M und 3M . Versucht man allerdings das lineare Programm

maxx∈RN

N∑

n=1

10N−n xn mit 2

k−1∑

n=1

10k−n xn + xk ≤ 100k−1, xn ≥ 0,

wobei k = 1, . . . ,N , zu lösen, benötigt man ausgehend von der zulässigen Lö-sung x = 0 genau 2N Basiswechsel, um die optimale Basislösung zu bestimmen.Genauer durchläuft man hier alle zulässigen Basislösungen. Insbesondere zeigtdieses Beispiel, dass es lineare Programme gibt, die der primalen oder dualenSimplex-Algorithmus nicht in Polynomialzeit lösen kann.

Die Idee hinter dem Simplex-Verfahren war, dass wir gezielt die Extremal-punkte des zulässigen Bereichs durchlaufen, um die Optimallösung zu �nden.Anstatt einen Pfad auf dem Rand des zulässigen Bereichs zu konstruieren, be-stimmenwir als nächstes einenWeg durch das Innere des zulässigen Bereichs, inder Ho�nung einen e�ektiveren Algorithmus zu erhalten. Die Grundlage hierfürbildet die Dualitätstheorie und die Optimalitätsbedingungen in Kapital III. Wirbetrachten wieder primale und duale Probleme der Form

minx∈RN

c • x mit Ax = b, x ≥ 0 (P)


72 IV. Innere-Punkte-Verfahren

undmaxy∈RM

z∈RN

b • y mit ATy + z = c, z ≥ 0. (D)

Wenn wir nachfolgend vom Rand oder vom Inneren des zulässigen Bereichessprechen, ist immer der relative Rand und das relative Innere bezüglich des auf-gespannten a�nen Unterraumes gemeint.

Definition 15.1 (Primaler und dualer zulässiger Bereich). Der primale zu-

lässige Bereich P, das Innere P und der Rand ∂P sind de�niert durch

P ≔ {x ∈ RN : Ax = b,x ≥ 0},

P ≔ {x ∈ P : x > 0},

∂P ≔ P \ P = {x ∈ P : xn = 0 für ein n}.

Analog sind der duale zulässig BereichD, das Innere D und der Rand ∂D de�niertdurch

D ≔ {(y, z) ∈ RM ×RN : ATy + z = c, z ≥ 0},

D ≔ {(y, z) ∈ D : z > 0},

∂D ≔ D \ D.

Die Idee hinter den Inneren-Punkte-Verfahren ist die gleichzeitige Optimie-rung des primalen und dualen Programmes, welche wir nachfolgend zu einemprimal-dualen Programm zusammenfassen.

Definition 15.2 (Primal-duales Programm). Das primal-duale Optimierungs-problem zu den Programmen (P) und (D) ist das Programm

minx∈RN

y∈RM

z∈RN

x • z mit Ax = b, x ≥ 0,

ATy + z = c, z ≥ 0.(PD)

Die Optimalitätsbedingungen aus Satz 12.4 lassen sich direkt auf das primal-duale Programm übertragen.


15. Das primal-duale Programm 73

Satz 15.3 (Primale-dualeOptimalitätsbedingungen). Ein Tripel (x,y, z) istgenau dann eine optimale Lösung von (PD), wenn

Ax = b, x ≥ 0

ATy + z = c, z ≥ 0

x • z = 0

(15.1)

In diesem Fall ist x eine optimale Lösung von (P) und (y, z) von (D).

Beweis. Zunächst nehmen wir an, dass das Tripel (x,y, z) die Optimalitätsbe-dingungen (15.1) erfüllen. Nach Satz 12.4 ist x optimal für (P) und (y, z) optimalfür (D). Weil x • z ≥ 0, nimmt das Tripel (x,y, z) o�ensichtlich den minimalmöglichen Zielfunktionswert an, was bedeutet, dass (x,y, z) eine Optimallö-sung von (PD) ist.

Für die Rückrichtung nutzen wir, dass das lineare Programm (PD) äquivalentzu

minx∈RN

c • x − maxy∈RM

z∈RN

b • y mit Ax = b x ≥ 0

ATy + z = c z ≥ 0

ist, wobei wir die Identität x • z = c • x − b • y aus Lemma 12.3 verwenden.Aufgrund der Trennung des primalen und dualen Programmes, müssen für dieoptimale Lösung (x,y, z) von (PD) die primalen Variablen x optimal für (P) unddie dualen Variablen (y, z) optimal für (D) sein. Aufgrund der starken Dualitätin Satz 11.7 git es für x ein duale Lösung (y, z), so dass die Dualitätslücke bezie-hungsweise x • z verschwindet. Somit muss für die optimale Lösung (x,y, z)

ebenfalls x • z gelten. �

Das relative Innere und den relativen Rand des primal-dualen Programmesde�nieren wir analog zu den zulässigen Bereichen des primalen und dualen Pro-blems.

Definition 15.4 (Primal-dual zulässiger Bereich). Der primal-dual zulässige

Bereich F, das Innere F und der Rand ∂F des primal-dualen Programmes (PD)sind de�niert durch

F ≔ {(x,y, z) ∈ RN × RM ×RN : Ax = b,x ≥ 0,ATy + z = c, z ≥ 0},

F ≔ {(x,y, z) ∈ F : x > 0, z > 0},



∂F ≔ F \ F.

Um das primal-duale Programm zu optimieren, konstruieren wir eine Folge

von Punkten im relativen Inneren F, die im Grenzwert die Optimalitätsbedin-gungen (15.1) von Satz 15.3 erfüllen. Basierend auf dieser Idee erklärt sich derName der Inneren-Punkte-Verfahren.

16. Barrieremethoden

Um zu verhindern, dass wir während der Iteration in den relativen Randdes zulässigen Bereichs laufen, addieren wir zur Zielfunktion einen soge-

nannten Barriereterm. Für die genaueDe�nition, betrachten wir allgemeiner dasOptimierungsproblem

minx∈X

f (x),

wobeiX eineMannigfaltigkeit mit Rand ∂X und nicht leerem Inneren X bezeich-

net. Eine stetige Funktion p : X → R heißt Barrierefunktion genau dann, wenn

für jede Folge (xn )n∈N im Inneren X , deren Grenzwert im Rand ∂X liegt,

p(xn ) → ∞

gilt. Das zugehörige Barriereproblem zum Parameter µ ist gegeben durch

minx ∈ X f (x) + µ p(x)

Der Parameter µ steuert hierbei den Ein�uss der Barrierefunktion p auf die Lö-sung des Barriereproblems.

Definition 16.1 (Lineare Barriereprobleme). Für das primale, duale undprimal-duale linearen Programm verwenden wir die Barrierefunktionen

p(x) = −N∑

n=1

ln(xn ) und p(z) = −N∑

n=1

ln(zn ).


16. Barrieremethoden 75

Das primale Barriereprobleme ist de�niert durch

minx∈R

c • x + µ p(x) mit Ax = b, x > 0, (Pµ)

das duale Barriereproblem durch

miny∈RN

z∈RM

−b • y + µ p(z) mit ATy + z = c, z > 0, (Dµ)

und das primal-duale Barriereproblem durch

minx∈RN

y∈RM

z∈RN

x • z + µ p(x) + µ p(z) mit Ax = b, x > 0,

ATy + z = c, z > 0.(PDµ)

Die nicht linearen Barriereprobleme (Pµ ), (Dµ ) und (PDµ) sind nur wohlde�-niert, wenn das relative Innere P, D und F der ursprünglichen linearen Pro-gramme (P), (D) und (PD) nicht leer sind. Basierend auf Lemma 12.3 können wirfür einen beliebigen Punkt (x0,y0, z0) ∈ F die primal-duale Zielfunktion um-schreiben zu

x • z + x0 • z0 = c • x − b • z0 + c • x0 − b • z = x • z0 + x0 • z

Damit ist das primal-duale Barriereproblem äquivalent zu

minx∈RN

y∈RM

z∈RN

x • z0 + µ p(x) + x0 • z + µ p(x) mit Ax = b, x > 0,

ATy + z = c, z > 0.(16.1)

Ersetzenwir zusätzlichx•z0 durch c•x−b•y0 undx0•z durch c•x0−b•y, lässtsich das primal-duale Barriereproblem (PDµ) in das primale Barriereproblem (Pµ )und das duale Barriereproblem (Dµ) aufspalten.

Lemma 16.2 (Konvexität der Zielfunktion). Die Zielfunktion von des primal-dualen Barriereproblems (PDµ ) ist strikt konvex bezüglich x und z.

Beweis. Der Gradient und die Hesse-Matrix der primal-dualen Zielfunktion

fµ (x, z) = x • z0 + x0 • z + µ p(x) + µ p(z)



sind gegeben durch

∇fµ (x, z) = *,[(z0)n − µ/xn]Nn=1

[(x0)n − µ/zn]Nn=1

+-

undHfµ (x, z) = µ diag

(1x21, . . . , 1

x2N

, 1z21, . . . , 1

z2N

)

Wegen x > 0 und z > 0, ist die Hesse-Matrix Hfµ hier immer positiv de�nit,womit unmittelbar die Behauptung, dass fµ strikt konvex ist, folgt. �

Aufgrund auf der strikten Konvexität der Zielfunktion muss die Lösung desprimal-dualen Barriereproblems eindeutig sein, sofern sie denn existiert.

Korollar 16.3 (Eindeutigkeit der Optimallösung). Die optimale Lösung desprimal-dualen Barriereproblems (PDµ) ist eindeutig, wenn sie existiert.

Beweis. Um die Behauptung zu zeigen, schreiben wir das primal-duale Barrie-reproblem in Abhängigkeit der Variablen x und z und eliminieren die Variableny. Auf diese Weise erhalten wir das Optimierungsproblem

minx∈RN

z∈RN

x • z0 + x0 • z + µ p(x) + µ p(z)=fµ (x,z)

mit Ax = b, x > 0,

∃y : ATy + z = c, z > 0.

Nach Lemma 16.2 ist die Zielfunktion fµ strikt konvex. Des Weiteren ist der zu-lässige Bereich F o�ensichtlich ebenfalls konvex.

Wir nehmennun an, dass es gibt zwei optimale Lösungen (x∗, z∗) und (x∗∗, z∗∗)des primal-dualen Barriereproblems gibt. Aufgrund der Konvexität des zulässi-gen Bereichs gilt

12 (x

∗, z∗) + 12 (x

∗∗, z∗∗) ∈ F.

Aus der strikten Konvexität der Zielfunktion folgt für den Mittelpunkt zwischenden beiden Optimallösungen nun aber

fµ(12 x∗+

12 x∗∗, 12 z

∗+

12 z∗∗)

< 12 fµ (x

∗, z∗) + 12 fµ (x

∗∗, z∗∗),

was allerdings ein Widerspruch zu Optimalität von (x∗, z∗) und (x∗∗, z∗∗) wäre.Damit muss die Optimallösung von (PDµ), wenn sie denn existiert, eindeutigsein. �



Bemerkung 16.4. Aufgrund der Voraussetzung rank(A) = M , hat die System-matrixA in der De�nition des zulässigen Bereichs immer einen vollen Rang. Dasbedeutet insbesondere, dass die Spalten der transponierten MatrixAT linear un-abhängig sind. Somit ist das Gleichungssystems ATy = c − z für jedes z > 0

eindeutig lösbar, womit wir den eliminierten Vektor y zu den dualen Variablenz eindeutig rekonstruieren können. �

Die Barriereprobleme (Pµ ), (Dµ) und (PDµ ) besitzen ähnliche Optimalitätsbe-dingungen wie die ursprünglichen linearen Programme, siehe Satz 12.4 und 15.3.Um diese herleiten zu können, benötigen wir das folgende Lemma.

Lemma16.5. SeiC ⊂ RN eine konvexe, o�ene und nicht-leereMenge und f : C →R eine konvexe und stetig di�erenzierbare Funktion, dann gilt

f (x) + ∇f (x) • (y − x) ≤ f (y)

für alle x,y ∈ C.

Beweis. Für beliebige Vektoren x,y ∈ C und für ein beliebiges α ∈ [0, 1] folgt,dass die Konvexkombination

xα ≔ x + α (y − x)

o�ensichtlich ebenfalls inC enthalten sein muss. Die Konvexität der Funktion fimpliziert nun

f (xα ) ≤ (1 − α ) f (x) + α f (x)und

f (xα ) − f (x)α

≤ f (y) − f (x).

Lassen wir auf der linken Seite den Parameter α gegen null gehen, erhalten wirdie Richtungsableitung in Richtung y − x. Auf diese Weise erhalten wir die Un-gleichung

∇f (x) • (y − x) ≤ f (y) − f (x),

woraus die Behauptung folgt. �



Satz 16.6 (Optimalitätsbedingungen für Barriereprobleme). Die folgen-den Aussagen sind äquivalent:

(i) x∗ ist eine optimale Lösung von (Pµ ).

(ii) (y∗, z∗) ist eine optimale Lösung von (Dµ ).

(iii) (x∗,y∗, z∗) ist eine optimale Lösung von (PDµ).

(iv) Es existiert ein Tripel (x∗,y∗, z∗) ∈ RN ×RM × RN , so dass

(α) Ax∗ = b und x∗ > 0,

(β) ATy∗ + z∗ = c und z∗ > 0,

(γ) x∗n z∗n = µ für alle n = 1, . . . ,N .

Beweis. Wir zeigen zunächst die Implikation von (i) nach (iv). Hierfür sei x∗

eine optimale Lösung von (Pµ), womit insbesondere Ax∗ = b und x∗ > 0 gilt.Des Weiteren setzen wir voraus, dass die Vektoren y1, . . . ,yN−M eine beliebigeBasis des Kernes ker(A) von A bilden. Als nächstes betrachten wir die Rich-tungsableitung der primalen Zielfunktion

fµ (x) ≔ c • x + µ p(x)

bezüglich aller möglichen Richtungen y1, . . . ,yN−M im zulässigen Bereich P.Aus der Optimalität von x∗ folgt

fµ (x∗) ≤ f (x∗ + t yn )

für hinreichend kleine t > 0. Da die Optimallösung x∗ im positiven Orthantenenthalten ist, liegt hierbei der Punkt x∗ + t yn für hinreichend kleine t ebenfallsim zulässigen Bereich P. Somit ist der Grenzwert des Di�erenzenquotienten

limtց0

fµ (x∗+t yn )−fµ (x∗)

t ≥ 0

und damit auch die Richtungsableitung

∇fµ (x∗) • yn ≥ 0

für alle Richtungen y1, . . . ,yN−M in ker(A) nicht negativ. Vollkommen analogfolgt, dass die Ableitungen in Richtung −yn ebenfalls nicht negativ sind, womitdie Richtungsableitungen verschwinden müssen. In anderen Worten haben wir

∇fµ (x∗) • yn = 0



für n = 1, . . . ,N −M und damit ∇fµ (x∗) ∈ ker(A)⊥.

Als nächstes nutzen wir aus, dass wir den Vektorraum RN orthogonal bezüg-lich des Kernes von A und des Bildes von AT zerlegen können. Genauer habenwir die orthogonale Zerlegung RN

= ker(A) ⊕ ran(AT). Wegen ∇fµ (x∗) ∈ran(AT) muss ein Vektors y ∈ RM mit

ATy = ∇fµ (x∗)

existieren. Der Gradient der primalen Zielfunktion ist hierbei gegeben durch

[∇fµ (x∗)]n = cn − µxn.

De�nierenwir nun denVektor z durch zn = µ/xn , dann erfüllt das Tripel (x∗,y, z)die Optimalitätsbedingungen

Ax∗ = b, x∗ > 0,

ATy + z = c, z > 0,

x∗n zn = µ

für n = 1, . . . ,N .

Für die Rückrichtung nehmen wir an, dass das Tripel (x∗,y∗, z∗) die Bedin-gungen (iv) erfüllt, womit wir den Gradient der primalen Zielfunktion fµ um-schreiben können zu

∇fµ (x∗) =(

cn − µx∗n

)M

n=1= c − z∗ = ATy∗.

Aufgrund der orthogonalen Zerlegung RN= ker(A) ⊕ ran(AT) gilt also wieder

∇fµ (x∗) ∈ ker(A)⊥

Da die primale Zielfunktion fµ konvex auf der nicht leeren, o�enen und konve-xen Menge {x ∈ RN : x > 0} ist, folgt aus Lemma 16.5 für jedes x mit Ax = b

und x > 0 die Abschätzung

fµ (x∗) + ∇fµ (x∗) • (x − x∗) ≤ fµ (x),

wobei das Skalarprodukt, aufgrund von x − x∗ ∈ ker(A), verschwindet. Damitist x∗ optimal für (Pµ ).

Als nächstes zeigen wir die Äquivalenz von (ii) und (iv). Hierfür sei (y∗, z∗)



eine optimale Lösung von (Dµ). Die duale Zielfunktion bezeichnen wir mit

fµ (y, z) = −b • y + µ p(z).

Analog zum obigen Beweis gilt

∇fµ (y∗, z∗) ∈ ker(AT, I )⊥ = ran

(

A

I

)

,

wobei der Gradient bezüglich y und z gegeben ist durch

∇y fµ (y∗, z∗) = −b und ∇z fµ (y∗, z∗) =(

− µ

z∗n

)N

n=1.

Somit �nden wir immer ein Urbild x′ mit

Ax′ = −b und x′n = −µz∗n< 0.

Mit der Substitution x = x′ erfüllt das Tripel (x,y∗, z∗) die Optimalitätsbedin-gungen

Ax = b, x > 0

ATy∗ + z∗ = c, z∗ > 0

xn z∗n = µ

für n = 1, . . . ,N .

Für die Rückrichtung erfülle der Vektor (x∗,y∗, z∗) die Bedingungen (iv), wo-mit wir den Gradienten der dualen Zielfunktion fµ schreiben können als

∇y fµ (y∗, z∗) = −b = −Ax∗

und∇z fµ (y∗, z∗) =

(

− µz∗n

)N

n=1= −x∗

Damit liegt der Gradient von fµ wieder im Bildraum des Operators (AT, I )T,welcher orthogonal zum Kern ker(A, I ) ist. Genauer gilt für den Gradienten

∇f (y∗, z∗) ∈ ran(

A

I

)

= ker(A, I )⊥.

Weil die duale Zielfunktion fµ konvex auf der nicht leeren, o�enen und konvexen



Menge {(y, z) ∈ RM ×RN : z > 0} ist, folgt aus Lemma 16.5 die Ungleichung

fµ (y∗, z∗) + ∇fµ (y∗, z∗) •

(

y − y∗z − z∗

)

≤ fµ (y, z).

für alle (y, z) mit ATy + z = c und z > 0. Da das Skalarprodukt wieder ver-schwindet, ist (y∗, z∗) optimal für (Dµ).

Für die letzte Äquivalenz von (iii) nach (iv) setzen wir zunächst voraus, dass(x∗,y∗, z∗) eine optimale Lösung von (PDµ) ist. Da wir das primal-duale Bar-riereproblem in das primale und duale Barriereproblem zerlegen können, siehe(16.1), muss x∗ eine Lösung von (Pµ ) und (y∗, z∗) eine Lösung von (Dµ ) sein. Esbleibt zu zeigen, dass (x∗,y∗, z∗) die Optimalitätsbedingungen (iv) erfüllt. Wirwissen bereits von der primalen Optimalität von x∗, dass es einen Vektor (y′, z′)gibt, so dass (x∗,y′, z′) die Bedingungen (iv) erfüllt, wobei (y′, z′) eine optimaleLösung von (Dµ) ist. Aufgrund der Eindeutigkeit der primal-dualen Optimallö-sung durch Korollar 16.3 folgt (y′, z′) = (y∗, z∗).

Für die Rückrichtung haben wir bereits gezeigt, wenn (x∗,y∗, z∗) die Optima-litätsbedingung (iv) erfüllt, dann istx∗ optimal für (Pµ ) und (y

∗, z∗) für (Dµ ). Ausder Aufspaltung des primal-dualen Barriereproblems in (16.1) folgt unmittelbar,dass (x∗,y∗, z∗) optimal für das primal-duale Barriereproblem (PDµ) ist. �

Korollar 16.7 (Eindeutigkeit der Optimallösung). Wenn das primale Bar-riereproblem (Pµ) und das duale Barriereproblem (Dµ) optimale Lösungen besitzen,dann sind diese eindeutig.

Beweis. Besitzt (Pµ ) oder (Dµ) eine optimale Lösung, dann haben die alle dreiBarriereprobleme (Pµ), (Dµ) und (PDµ ) eine optimale Lösung. Die Eindeutigkeitfolgt jetzt aus der Eindeutigkeit für das primal-duale Problem in Korollar 16.3. �

Bisher haben wir gezeigt, dass die Optimallösungen der Barriereprobleme,wenn sie denn existieren, eindeutig sind. Als nächstes beschäftigen wir uns mitder Frage, unter welchen Umständen die Existenz der Lösung gesichert werdenkann. Hierfür verwenden wir die Innere-Punkte-Annahme, welche voraussetzt,dass das primal-duale Programmmindestens eine strikt zulässige Lösung besitzt,was nichts anderes bedeutet als

F , ∅ oder P , ∅ und D , ∅.



Satz 16.8 (Existenz der Optimallösung). Das primal-duale Barriereproblem(PDµ ) besitzt genau dann einen (eindeutigen) Minimierer, wenn die Innere-Punkte-Annahme erfüllt ist.

Beweis. Wir setzen voraus, dass die Innere-Punkte-Annahme erfüllt ist. Somitgibt es einen Punkt (x0,y0, z0) ∈ F und wir können die primal-duale Zielfunk-tion schreiben als

fµ (x, z) ≔ z0 • x − µN∑

n=1

ln(xn ) + x0 • z − µN∑

n=1

ln(zn ).

O�ensichtlich ist die Zielfunktion fµ eine Kombination von Funktionen des Typs

ϕ : (0,∞) → R mit ϕ (t ) ≔ αt − µ ln(t ),

wobei α eine positive Konstante ist. Für die zweite Ableitung von ϕ erhalten wir

ϕ′′(t ) =µ

t2> 0.

Aus der Positivität der zweiten Ableitung folgt unmittelbar, dass die Funktionϕ strikt konvex auf (0,∞) sein muss. Darüber hinaus sind die Grenzwerte zumRand des De�nitionsbereichs gegeben durch

limt→0

ϕ (t ) = ∞ und limt→∞

ϕ (t ) = ∞.

Des Weiteren ist ϕ nach unten beschränkt.

Um zu zeigen, dass das primal-duale Barriereproblem eine Lösung besitzt, zei-

gen wir, dass für ein festes (x,y, z) ∈ F die Niveaumenge

L(x,y,z) ≔ {(x,y, z) ∈ F : fµ (x, z) ≤ fµ (x, z)}

kompakt ist.

Um zunächst Abgeschlossenheit der Menge L(x,y,z) zu zeigen, betrachten wir

eine konvergente Folge (x(n),y (n), z (n) )n∈N in L(x,y,z) mit Grenzwert

(x(n),y (n), z (n) ) → (x, y, z).

Da der zulässige Bereich F als Schnitt des positiven Orthanten und einer Hy-perebene abgeschlossen ist, liegt der Grenzwert (x, y, z) ebenfalls inF. Hierbeikann (x, y, z) nicht im relativen Rand ∂F liegen, da in diesem Fall die Funkti-



onswerte fµ (x(n), z (n) ) nach unendlich streben würden, was allerdings der Vor-

aussetzung fµ (x(n), z (n) ) ≤ fµ (x, z) widersprechen würde. Aus der Stetigkeit

der Zielfunktion fµ auf F folgt

fµ (x, z) ≤ fµ (x, z) und (x, y, z) ∈ L(x,y,z) .

Für die Beschränktheit nehmenwir zunächst an, dass die NiveaumengeL(x,y,z)unbeschränkt wäre. In diesem Fall existiert eine Folge (x(n),y (n), z (n) ) in L(x,y,z)mit

‖ (x(n),y (n), z (n) )‖∞ → ∞.

Insbesondere muss es eine Teilfolge (x(k ),y (k ), z (k ) )k∈N geben, so dass die Pro-jektionen auf eine Koordinate unbeschränkt sind. Sollte eine Komponente vonx oder z unbeschränkt sein, folgt aus der Zielfunktion unmittelbar

(z0)n • xn − µ ln(xn ) → ∞

oder(x0)n • zn − µ ln(zn ) → ∞

und damitfµ (x

(k ), z (k ) ) → ∞,

was wieder ein Widerspruch zu fµ (x(k ), z (k ) ) ≤ fµ (x, z) ist. Die Koordinaten

xn und zn sind also beschränkt. Da die Variablen y (n) über dieMoore-Penrose-Inverse (AAT)−1A von AT eindeutig durch

y (k )= (AAT)−1A(c − z (k ) )

berechnet werden können, sind auch die Koordinaten yn beschränkt.

Die Existenz eines Minimierers der stetige Zielfunktion fµ auf der kompaktenMenge L(x,y,z) folgt nun direkt aus dem Satz vonWeierstrass. Da die Zielfunk-tion außerhalb derMengeL(x,y,z) nach unten durch fµ (x, z) beschränkt ist, mussdas angenommene Minimum global sein. Die Eindeutigkeit haben wir bereits inKorollar 16.3 gezeigt.

Die Rückrichtung des Satzes ist trivial, da jeder Minimierer von (PDµ) einPunkt im relativen Inneren ist und somit o�ensichtlich die Innere-Punkte-An-nahme gilt. �

Erfüllt das primale-duale Programm (PD) die Innere-Punkte-Annahme, dannliefert jedes Barriereproblem (PDµ) für µ ∈ (0,∞) einen eindeutigen Punkt im re-

lativen Inneren F des zulässigen BereichsF. Nach Satz 16.6 gilt für diese Punkte



die Optimalitätsbedingung

xn zn = µ (n = 1, . . . ,N ).

Lassen wir den Parameter µ nach unendlich streben, dann muss mindestens einFaktor im Produkt ebenfalls nach unendlich streben. Es gilt also xn → ∞ oderzn → ∞. Somit ist der zulässige BereichF des primal-dualen Programmes immerunbeschränkt. Um sicher zu stellen, dass das primal-duale Problem unter derInneren-Punkte-Annahme ebenfalls lösbar ist, zeigen wir, dass das Teilpolyeder

F(x,y,z) ≔ {(x,y, z) ∈ F : x • z ≤ x • z}

beschränkt sein muss.

Satz 16.9 (Beschränktheit des Teilpolyeders). Unter der Inneren-Punkte-An-

nahme F , ∅ ist für jedes (x,y, z) ∈ F das Teilpolyeder F(x,y,z) kompakt.

Beweis. Wir wählen ein festen (x0,y0, z0) ∈ F betrachten ein beliebiges Tripel(x,y, z) ∈ F mit x • z ≤ x • z. Das Tripel (x,y, z) ist also insbesondere imTeilpolyeder F(x,y,z) enthalten. Aufgrund der Äquivalenz des komplementärenResiduums und der Dualitätslücke in Lemma 12.3 erhalten wir

z0 • x + x0 • z = x • z + x0 • z0 ≤ x • z + x0 • z0.

Das Minimum der Komponenten (x0)1, . . . , (x0)N und (z0)1, . . . , (z0)N bezeich-nen wir nachfolgend mit γ . Wegen der Nicht-Negativität x0 > 0 und z0 > 0

haben wir immer γ > 0. Zusammen mit der Nicht-Negativität von x und z folgt

0 ≤ xn ≤ 1(z0)n

(x • z + x0 • z0) ≤ 1γ(x • z + x0 • z0) ≕ Γ

und vollkommen analog0 ≤ zn ≤ Γ

für alle n = 1, . . . ,N . Wie im Beweis von Satz 16.8 ist y = (AAT)−1A(c−z) nunebenfalls beschränkt. Die Abgeschlossenheit des Teilpolyeders ist o�ensichtlich,woraus die Kompaktheit von F(x,y,z) folgt. �

Ähnlich begründet man, dass die Teilpolyeder

Px ≔ {x ∈ P : c • x ≤ c • x}


17. Der zentrale Pfad 85

undDy,z ≔ {(y, z) ∈ D : b • y ≥ b • y}

unter der Inneren-Punkte-Annahme kompakt sind. Somit müssen die linearenProgramme (P), (D) und (PD) unter der Inneren-Punkte-Annahme mindestenseine Lösung besitzen.

17. Der zentrale Pfad

Wir verwenden die Optimalitätsbedingungen von Satz 16.6 um einenPfad von inneren Punkten zu konstruieren, welcher für µ → 0 gegen

eine Optimallösung des primal-dualen Programmes konvergiert. Hierfür de�-nieren wir die Abbildung

Fµ : RN ×RM × RN → RN ×RM × RN

mit

Fµ (x,y, z) ≔*.,ATy + z − c

Ax − bx ⊙ z − µ1

+/- ,

wobei ⊙ die komponentenweise Multiplikation und 1 den Vektor (1, . . . , 1)T ∈RN bezeichnet. Die Funktion Fµ spiegelt die Residuen bezüglich Satz 16.6 wieder.

Die Optimalitätsbedingungen selbst können in der Form

Fµ (x,y, z) = 0, mit x > 0, z > 0

neu formuliert werden.

Lemma 17.1. Die Jacobi-Matrix der Funktion Fµ ist gegeben durch

JFµ (x,y, z) =*.,0 AT I

A 0 0

Z 0 X

+/-

mit Z = diag(z) und X = diag(x). Für jeden Vektor (x,y, z) mit x > 0 undz > 0 ist die Jacobi-Matrix regulär.



Beweis. Die angegebeneMatrix ist o�ensichtlich die Jacobi-Matrix von Fµ . Fürdie Regularität zeigen wir, dass der Kern trivial ist. Hierfür betrachten wir einenbeliebigen Vektor (p, q, r) aus RN × RM ×RN mit

JFµ (x,y, z)*.,p

q

r

+/- = 0 oder

ATq + r = 0,

Ap = 0,

Zp +Xr = 0.

Die ersten beiden Gleichungen liefern nun die Bedingung

pTATq + pTr = pTr = 0.

Zusammen mit der letzten Gleichung r = −X−1Zp erhalten wir daraus

pTX−1Zp = −pTr.

Wegen der positiven De�nitheit der Matrix X−1Z folgt somit p = 0 und r = 0.Aufgrund des vollen Ranges von AT und der damit verbundenen Injektivitätfolgt ausATq = 0 schließlich ebenfalls q = 0. Insgesamt gilt also

ker(JFµ (x,y, z)) = {0},

womit JFµ regulär sein muss. �

Unter der Inneren-Punkte-Annahme besitzt das nicht lineare Gleichungssys-tem

Fµ (x,y, z) = 0 mit x > 0, z > 0,

welches die Optimalitätsbedingungen des Barriereproblems (PDµ) beschreibt, fürjedes µ ∈ (0,∞) eine eindeutige Lösung (x(µ ),y(µ ), z(µ )), siehe Satz 16.8 undKorollar 16.3. Nach Lemma 17.1 ist die Jacobi-Matrix JFµ (x(µ ),y(µ ), z(µ )) andieser Stelle regulär. Als Folgerung des Satzes über implizite Funktionen erhal-ten wir für jedes feste µ eine Umgebung Uµ , so dass eine stetig di�erenzierbareFunktion

w :Uµ → F,

τ 7→ w (τ ) = (x(τ ),y(τ ), z(τ )).

existiert mitFτ (w (τ )) = 0 für alle τ ∈ Uµ .

Weil diese Beobachtung für alle µ ∈ (0,∞) gilt, kann die Kurve w auf (0,∞)


17. Der zentrale Pfad 87

fortgesetzt werden und wir erhalten eine stetig di�erenzierbare Funktion

w :

(0,∞) → F

µ 7→ w (µ ) = (x(µ ),y(µ ), z(µ ))

mitFµ (x(µ ),y(µ ), z(µ )) = 0 für alle µ ∈ (0,∞).

Basierend auf dieser Kurve de�nieren wir den zentralen Pfad für ein gegebenesprimal-duales Optimierungsproblem.

Definition 17.2 (Zentraler Pfad). Die Menge der Bildpunkte

Γ ≔ {w (µ ) : µ ∈ (0,∞)} ⊂ F

der Funktion w heißt zentraler Pfad des primal-dualen Programms (PD). DieOptimalitätsbedingungen des primal-dualen Barriereproblems (PDµ) in Satz 16.6werden auch zentrale Pfad-Bedingungen genannt.

Satz 17.3 (Konvergenz des zentralen Pfades). Es gelte die Innere-Punkte-An-nahme und es sei (µk )k∈N eine Folge mit µk → 0. Dann ist jeder Häufungspunkt derFolge der Pfadpunktew (µk ) eine strikt komplementäre Optimallösung des primal-dualen Programmes (PD).

Beweis. Es sei (µk )k∈N eine konvergente Folge mit µk → 0. Die Pfadpunkte

w (µk ) = (x(µk ),y(µk ), z(µk ))

erfüllen die zentralen Pfad-Bedingungen in Satz 16.6 und somit insbesondere

x(µk ) • z(µk ) = Nµk .

Aufgrund der Konvergenz ist die Folge (µk )k∈N beschränkt, so dass wir ein µ ∈(0,∞) �nden mit µk ≤ µ für alle k ∈ N. Als Folgerung liegen alle Pfadpunkte imTeilpolyeder

w (µk ) ∈ F(x(µ),y(µ ),z(µ )) = {(x,y, z) ∈ F : x • z ≤ Nµ }.

Nach Satz 16.9 ist das TeilpolyederF(x(µ ),y(µ ),z(µ )) kompakt, womit alleHäufungs-punkte des Pfades (w (µk ))k∈N ebenfalls in F(x(µ),y(µ ),z(µ ) enthalten sind.



Für jeden Häufungspunktw∗ = (x∗,y∗, z∗) der Pfadpunkte existiert eine ge-eignete Teilfolge mit w (µkν ) → w∗. Mit Hilfe dieser Teilfolge können wir daskomplementäre Residuum des Häufungspunktes mittels

x∗ • z∗ = limν→∞

x (µkν ) • z(µkν ) = limν→∞

Nµkν = 0

berechnen. Somit erfülltw∗ die Optimalitätsbedingungen in Satz 15.3 und ist eineoptimale Lösung des primal-dualen Programmes (PD).

Es bleibt zu zeigen, dass jeder Häufungspunktw∗ eine strikt komplementäreLösung ist. Aufgrund der Gleichheitsbedingungen für die Zulässigkeit gilt fürdie Pfadpunkte

(x(µkν ) − x∗) ∈ ker(A) und (z(µkν ) − z∗) ∈ ran(AT ).

Wegen der Orthogonalität ker(A) ⊥ ran(AT ) gilt insbesondere

(x(µkν ) − x∗) • (z(µkν ) − z∗) = 0

und somit

x∗ • z(µkν ) + z∗ • x(µkν ) = x(µkν ) • z(µkν ) + x∗ • z∗ = Nµkν .

Beschränken wir uns bei den Skalarprodukten auf die Nicht-Null-Elemente, er-halten wir die Gegleichung

∑

n :x∗n>0

x∗n zn (µkν ) +∑

n :z∗n>0

z∗n xn (µkν ) = Nµkν .

Dividieren wir diese Gleichung durch µkν , wobei wir für die auftretenden Sum-manden die Darstellung µkν = xn (µkν ) zn (µkν ) verwenden, erhalten wir

∑

n :x∗n>0

x∗nxn (µkν )

+

∑

n :z∗n>0

z∗nzn (µkν )

= N .

Betrachten wir den Grenzübergang ν → ∞, vereinfacht sich diese Gleichung zu

∑

n :x∗n>0

1 +∑

n :z∗n>0

1 = N ,

was gerade der Identität

�� {n ∈ {1, . . . ,N } : x∗n > 0} �� + �� {n ∈ {1, . . . ,N } : z∗n > 0} �� = N


18. Primal-duale Pfad-Verfolgungsverfahren 89

entspricht. Aufgrund der Komplementarität von x∗ und z∗ ist die nur möglich,wenn entweder x∗n > 0 oder z∗n > 0 gilt. Insgesamt erhalten wir die gefordertestrikte Komplementarität

x + z > 0 �

Die Aussage von Satz 17.3 kann wesentlich konkreter formuliert werden. Ge-nauer kann man zeigen, dass die Pfadpunkte nur einen Häufungspunkt besitzenund dieser für verschiedene Pfadpunkte identisch ist, siehe [Men98].

Satz 17.4 (Konvergenz des zentralen Pfades). Es gelte die Innere-Punkte-An-nahme. Dann gibt es genau eine strikt komplementäre Optimallösung w∗, so dassder zentrale Pfadw (µ ) für µ → 0 gegenw∗ konvergiert.

18. Primal-duale Pfad-Verfolgungsverfahren

Die Grundidee der Pfad-Verfolgungsverfahren ist die Anwendung desNewton-Verfahrens, welches wir für die nicht lineare Optimierungspro-

bleme nochmals genauer betrachten werden, auf die zentralen Pfad-Bedingungin Satz 16.6, um eine Näherungslösung für das Barriereproblem (PDµ ) zu bestim-men. Fassen wir die Pfad-Bedingungen wieder zur Funktion

Fµ (x,y, z) ≔*.,ATy + z − c

Ax − bx ⊙ z − µ1

+/-

zusammen, suchen wir also einen Punktw ≔ (x,y, z), so dass Fµ (w) = 0 gilt.

Ausgehend von einer geeigneten Approximationwk bestimmen wir eine bes-sere Lösungwk+1 durch Nullsetzen der Linearisierung von Fµ . Wir machen alsoden Ansatz

Fµ (w) ≈ Fµ (wk ) + JFµ (wk )(w −wk ) = 0.

Nach Lemma 17.1 ist die Jacobi-Matrix hier regulär, so dass die Lösung des linea-risierten Gleichungssystems durch

wk+1= wk − JFµ (wk )−1Fµ (w

k )



oderwk+1

= wk+ ∆wk mit JFµ (w

k )∆wk= −Fµ (wk )

gegeben ist. Das letzte Gleichungssystem wird gewöhnlich als Newton-Glei-chung bezeichnet. Die Newton-Gleichungen haben hier die Form

*.,0 AT I

A 0 0

Zk0 Xk

+/-

*..,∆xk

∆yk

∆zk

+//-= −

*..,ATyk + zk − c

Axk − bxk ⊙ zk − µ1

+//-(18.1)

mitXk≔ diag(xk ) und Zk

≔ diag(zk ). Um sicherzustellen, dass die Nebenbe-dingungen xk+1 > 0 und zk+1 > 0 erfüllt werden, erweitern wir das Newton-Verfahren um eine Schrittweite tk ∈ (0, 1]. Genauer bestimmen wir die neueIterierte durch

wk+1= wk

+ tk ∆wk

Da wir nicht an der exakten Lösung des primal-dualen Barriereproblems PDµ

für ein festes µ interessiert sind, führen wir lediglich einen einzigen Iterations-schritt durch und verwenden die Lösung als Startwert für ein weiteres Barriere-problem PDµ . Es ist üblich für das neue Barriereproblem den Parameter

µ′ = σ xk•zkN

für ein gegebenes σ ∈ (0, 1] zu wählen. Bisher ist noch völlig unklar, wie wirdie Schrittweite tk für den Newton-Schritt wählen sollten. Um eine geeigneteSchrittweite zu �nden, betrachten wir den Suchrichtungsstrahl

w(t ) ≔ (x(t ),y(t ), z(t )) = (xk ,yk , zk ) + t (∆xk ,∆yk ,∆zk )

und untersuchen, wie sich

• das duale Residuum Rc(y, z) ≔ ATy + z − c,• das primale Residuum Rb(x) ≔ Ax − b,• die Dualitätslücke x • z

entlang der Suchrichtung ändern.

Satz 18.1 (Variation derResiduen). Die Residuen ändern sich entlang der Such-richtung gemäß

Rc(y(t ), z(t )) = (1 − t ) Rc(yk , zk ),



Rb (x(t )) = (1 − t ) Rb (xk ),

x(t ) • z(t ) = [1 − t (1 − σ )] (xk • zk ) + t2 (∆xk • ∆zk ).

Beweis. Aus den ersten beiden Blöcken derNewton-Gleichungen erhalten wirdie Identitäten

AT∆yk + ∆zk = −ATyk + zk − c = −Rc(yk , zk )

undA∆xk = −(Axk − b) = −Rb (xk ).

Für das duale und primale Residuum folgt daraus

Rc(y(t ), z(t )) = AT(yk + t ∆yk ) + (zk + t ∆zk ) − c

= ATyk + zk − c=Rc(yk ,zk )

+t (AT∆yk + ∆zk )

=−Rc (yk ,zk )

= (1 − t ) Rc(yk , zk )und

Rb(x(t )) = A(xk + t ∆xk ) − b

= Axk − b=Rb(xk )

−t A∆xk

=−Rb (xk )

= (1 − t ) Rb(xk ).

Für die Dualitätslücke erhalten wir zunächst

x(t ) • z(t ) = (xk + t ∆xk ) • (zk + t ∆zk )

= xk • zk + t (xk • ∆zk + ∆xk • zk ) + t2 (∆xk • ∆zk ).

Der letzte Block der Newton-Gleichung liefert uns die Identität

Zk∆xk +Xk∆zk = −xk ⊙ zk + µ1

beziehungsweise durch Aufsummieren der Zeilen

zk • ∆xk + xk • ∆zk = −xk • zk + Nµ = −(1 − σ ) (xk • zk ).



Insgesamt erhalten wir für die Dualitätslücke somit

x(t ) • z(t ) = [1 − t (1 − σ )] (xk • zk ) + t2 (∆xk • ∆zk ) �

Bemerkung 18.2. Entlang der Suchrichtungwird das primale und das duale Re-siduum entsprechend einer linearen Funktion abgebaut. Die Dualitätslücke än-dert sich jedoch gemäß einer quadratischen Funktion. Bezeichnen wir die Dua-litätslücke mit

ϕ (t ) ≔ x(t ) • z(t ),

dann ist die Ableitung bei null gegeben durch

ϕ′(0) = −(1 − σ ) (xk • zk ).

Unter der Voraussetzung xk > 0 und zk > 0 ist die Funktion ϕ genau dann aufeinem kleinen Intervall [0, c ) monoton fallend, wenn σ ∈ (0, 1) gewählt wird. �

Wählen wir die Schrittweite tk hinreichend klein, können wir für σ ∈ (0, 1)

immer gewährleisten, dass die Positivitätsbedingung xk+1 > 0 und zk+1 > 0

erfüllt wird und sich das primale und duale Residuum sowie die Dualitätslückeverkleinert. Basierend auf diesen Überlegungen erhalten wir die allgemeinen un-zulässigen primal-dualen Pfad-folgenden Verfahren.

Algorithmus 18.3 (Äußere-Punkte-Verfahren).Voraussetzungen:

• A ∈ RM×N , b ∈ RM , c ∈ RN ,

• rank(A) = M ,

• w0= (x0,y0, z0) mit x0 > 0, z0 > 0,

• σ ∈ (0, 1), σ ∈ (0, 1).

(1) Falls xk • zk , ‖Rb (xk )‖ und ‖Rc(yk , zk )‖ hinreichend klein sind, beende

den Algorithmus.

→ STOP (Approximative Lösung gefunden.)

(2) Setze µk = σ (xk•zk )/N und bestimme eine Lösung ∆wk≔ (∆xk ,∆yk ,∆zk )



ϕ (t )

ϕ (0) − (1 − σ ) t (xk • zk )

ϕ (0) − (1 − σ ) t (xk • zk ) ϕ (t )

ϕ (0) − (1 − σ ) t (xk • zk )

ϕ (0) − (1 − σ ) t (xk • zk )

Abbildung 18.1.: Schematische Darstellung der Schri�weitenwahl tk in

Schri� (3) von Algorithmus 18.3.

der Newton-Gleichungen

*.,0 AT I

A 0 0

Zk0 Xk

+/-

*..,∆xk

∆yk

∆zk

+//-= −

*..,Rc(y

k , zk )

Rb (xk )

xk ⊙ zk − µ 1

+//-.

(3) Bestimme eine Schri�weite tk ∈ (0, 1] mit

xk + tk ∆xk > 0 und zk + tk ∆z

k > 0

sowie

x(t ) • z(t ) ≤ [1 − t (1 − σ )] (xk • zk )

für alle t ∈ (0, tk].(4) Setze wk+1

= wk+ tk ∆w

k , k = k + 1.


Bemerkung 18.4. Aufgrund der Wahl σ ∈ (0, 1) und σ ∈ (σ , 1) �nden wir im-mer eine Schrittweite tk , welche die Bedingungen in Schritt (3) erfüllt. Da dieDualitätslücke ϕ eine quadratische Funktion mit negativer Ableitung in null ist,können nur zwei Fälle auftreten, die in Abbildung 18.1 veranschaulicht sind. Dierechte Seite der Schrittweitenbedingung de�niert eine Gerade mit einer größe-ren Steigung als die Tangente vonϕ in null, womit die Bedingung für hinreichendkleine Schrittweiten erfüllt sein muss. Um die Schrittweite numerisch zu bestim-men, kann man zum Beispiel ausgehend von tk = 1 die Schrittweite sukzessivehalbieren. �

Weil sich die Residuen Rc und Rb bei jeder Iteration der Äußeren-Punkte-Ver-

fahren nach Satz 18.1 linear abbauen, wird das relative Innere F des primal-dualen Zulässigkeitsbereichs nicht mehr verlassen, sobald es einmal erreicht



wurde. Wenn wir also direkt mit einem Punkt w0 ∈ F, dann besteht die ge-samte Iterationsfolge (wk ) aus zulässigen Punkten. Die ersten beiden NewtonGleichungen vereinfachen sich in diesem Fall zu

∆xk +AT∆yk = 0 und A∆xk = 0.

Für die gesamte Iteration gilt somit

∆zk ∈ ran(AT) und ∆xk ∈ ker(A)

Somit müssen die Updates für xk und zk orthogonal sein. Wegen ∆zk •∆xk = 0

ändert sich das komplementäre Residuum entlang des Suchrichtungsstrahl ent-sprechend einer linearen Funktion. Genauer hat ϕ hier die Gestalt

ϕ (t ) = [1 − t (1 − σ )] (xk • zk ).

Das komplementäre Residuum wird also unabhängig von der gewählten Schritt-weite tk ∈ (0, 1] immer reduziert. Basierend auf diesen Beobachtungen erhaltenwir die allgemeinen zulässigen primal-dualen Pfad-folgenden Verfahren.

Algorithmus 18.5 (Innere-Punkte-Verfahren).Voraussetzungen:

• A ∈ RM×N , b ∈ RM , c ∈ RN ,

• rank(A) = M ,

• w0= (x0,y0, z0) ∈ F,

• σ ∈ (0, 1).

(1) Falls xk • zk hinreichend klein ist, beende den Algorithmus

→ STOP (Approximative zulässige Lösung gefunden.)

(2) Setze µk = σ (xk•zk )/N und bestimme eine Lösung ∆wk≔ (∆xk ,∆yk ,∆zk )

der Newton-Gleichung

*.,0 AT I

A 0 0

Zk0 Xk

+/-

*..,∆xk

∆yk

∆zk

+//-= − *.

,0

0

xk ⊙ zk − µk 1+/- .



(3) Bestimme eine Schri�weite tk ∈ (0, 1] mit

xk + tk ∆xk > 0 und zk + tk ∆z

k > 0.

(4) Setze wk+1= wk

+ tk ∆wk , k = k + 1.


Bemerkung 18.6. Die Wahl des Parameters σ für die Äußeren- und Inneren-Punkte-Verfahren bestimmt wesentlich die Suchrichtung während der Iteration.Im Allgemeinen �ndet für große σ eine engere Ausrichtung zum zentralen Pfadstatt, während für kleine σ die Ausrichtung stärker im Hinblick auf die optimaleRand�äche von F erfolgt. �

Man kann zeigen, dass die Äußeren- und Inneren-Punkte-Verfahren unter ge-eigneten Annahmen an die gewählten Schrittweiten zu einer Optimallösung desprimal-dualen Programmes konvergieren. Wir beschränken uns hier auf die fol-gende sehr allgemeine Konvergenzbedingung.

Satz 18.7 (Globale Konvergenz und Komplexität). Sei ϵ ∈ (0, 1) gegeben.Erfüllt die Iterationsfolge von Algorithmus 18.5 die Voraussetzung

xk+1 • zk+1 ≤(

1 − δ

Nω

)

(xk • zk )

für alle k ∈ N und für die Konstanten δ , ω mit 0 < δ < Nw , dann gibt es einK = O(Nω log(1/ϵ )), sodass

xn • zn ≤ ϵ

für alle k > K .

Beweis. Wir erhalten induktiv die Abschätzung

xk • zk ≤(

1 − δ

Nω

)k

(x0 • z0)

beziehungsweise durch Anwenden des Logarithmus

log(xk • zk ) ≤ k log(1 − δNω ) + log(x

0 • z0) ≤ − kδNω + log(x

0 • z0),



wobei wir die Abschätzung log(1 + ξ ) ≤ ξ für alle ξ > −1 verwenden. Wählenwir nun ein κ > 0 mit x0 • z0 ≤ (1/ϵ )κ , erhalten wir

log(xk • zk ) ≤ − kδNω − κ log(ϵ ).

Wir fordern nun, dass für hinreichend große k die rechte Seite nach oben durch

− kδNω − κ log(ϵ ) ≤ log(ϵ )

beschränkt ist, damit die Behauptung xk • zk ≤ ϵ erfüllt wird. Durch Au�ösendieser Ungleichung nach k folgt

−(1 + κ)Nω

δ log(ϵ ) = (1 + κ)Nω

δ log( 1ϵ ) ≤ k .

Somit wird die Abschätzung xk • zk < ϵ für alle k ≥ K = (1 + κ) Nω/δ log(1/ϵ )

erfüllt. �


Teil Zwei.

Unrestringierte, nicht lineare Optimierung

Kapitel V.

Nicht lineare Programme

19. Minima und Minimierer

Anders, als bei der linearen Optimierung, untersuchen wir im Folgen-denOptimierungsproblememit einer nicht linearenZielfunktion f : RN →

R, wobei wir jedoch auf jegliche Nebenbedingungen verzichten. Weil wir jedesMaximierungsproblem mittels

maxx∈RN

f (x) = − minx∈RN

(−f (x))

in ein äquivalentes Minimierungsproblem umschreiben können, beschränkenwir uns ohne Einschränkung auf Minimierungsprobleme. Hierbei unterscheidenwir die folgenden Arten von Minima.

Definition 19.1 (Minimum). Die Funktion f : RN → R besitzt in x∗ ∈ RN

(i) ein globales Minimum, falls

f (x∗) ≤ f (x) für alle x ∈ RN ,

(ii) ein strikt globales Minimum, falls

f (x∗) < f (x) für alle x ∈ RN \ {x∗},

(iii) ein lokales Minimum, falls ein ϵ > 0 existiert, so dass

f (x∗) ≤ f (x) für alle x ∈ Bϵ (x∗),


100 V. Nicht lineare Programme

(iv) ein strikt lokales Minimum, falls ein ϵ > 0 existiert, so dass

f (x∗) < f (x) für alle x ∈ Bϵ (x∗) \ {x∗}.

In Analogie zu den de�nierten Minima nennen wir einen Punkt x∗, an wel-chem die Funktion f ein (strikt) globales/lokales Minimum besitzt, einen (strikt)globalen/lokalenMinimierer. O�ensichtlich ist jeder globale Minimierer, auch einlokaler Minimierer. Obwohl die Umkehrung nicht im Allgemeinen gilt, fallendie De�nitionen der lokalen und globalen Minimierer für konvexe Funktionenzusammen, weshalb diese Funktionenklasse eine besondere Rolle in der nichtlinearen Optimierung einnimmt.

Definition 19.2 (Konvexe Funktion). Eine Funktion f : RN → R ist konvex,wenn für alle x,y ∈ RN und für alle λ ∈ (0, 1)

f (λx + (1 − λ) y) ≤ λf (x) + (1 − λ) f (y)

gilt. Die Funktion ist strikt konvex, wenn die Ungleichung für alle x , y strikterfüllt wird.

Satz 19.3 (Lokale Minima von konvexen Funktionen). Für eine konvexeFunktion f : RN → R gilt:

(i) Jedes lokale Minimum ist ein globales Minimum.

(ii) Ist die Konvexität strikt, dann existiert höchstens ein lokales Minimum.

Beweis. Wir nehmen zunächst an, dass die konvexe funktion f in einem Punktx∗ nur ein lokales Minimum besitzt. In anderen Worten wir �nden einen Punktx mit

f (x) < f (x∗).

Aus der Konvexität folgt nun für jeden Punkt x∗ + t (x − x∗) auf der Verbin-dungslinie zwischen x und x∗ die Ungleichung

f (x∗ + t (x − x∗)) ≤ t f (x) + (1 − t ) f (x∗) < t f (x∗) + (1 − t ) f (x∗) = f (x∗).

Damit existiert aber für jedes ϵ > 0 ein t ∈ (0, 1]mit

xt ≔ x∗ + t (x − x∗) ∈ Bϵ (x∗) und f (xt ) < f (x∗),


19. Minima und Minimierer 101

was allerdings der Annahme, dass x∗ ein lokaler Minimierer ist, widerspricht.Somit haben wir die erste Aussage der Behauptung gezeigt.

Angenommen eine strikt konvexe Funktion f besitzt zwei nicht lokaleMinimazu den ungleichen Minimierern x∗ und y∗. Wir haben bereits gezeigt, dass beideMinimierer x∗ und y∗ global sein müssen, womit wir f (x∗) = f (y∗) erhalten.Aus der strikten Konvexität folgt nun für den Mittelpunkt zwischen x∗ und y∗

die Abschätzung

f(12 x∗+

12 y∗)

< 12 f (x

∗) + 12 f (y

∗) = f (x∗) + f (y∗).

Somit ist der Funktionswert für den Mittelpunkt kleiner als das globale Mini-mum, was allerdings nicht möglich ist. Das lokale Minimum ist also eindeutig,wenn es existiert. �

UnterwelchenVoraussetzungen existiert für ein nicht lineares Programmüber-haupt eine Lösung des zugehörigenMinimierungsproblems? Für (unterhalb-)ste-tige Zielfunktionen lässt sich die Existenz des Minimierers mit Hilfe der Koerzi-vität sichern. Eine Funktion f : RN → R ist hierbei koerziv, wenn f (xn ) → ∞für jede Folge (xn )n∈N mit ‖xn‖ → ∞ gilt.

Satz 19.4 (Existenz des Minimums). Die Funktion f : RN → R sei stetig undkoerziv. Dann besitzt f einen globalen Minimierer x∗ ∈ RN .

Beweis. Wir zeigen zuerst, dass die Funktion f nach unten beschränkt seinmuss und somit das In�mum infx∈RN f (x) existiert. Hierfür nehmen wir an,dass dies nicht der Fall ist und eine Folge (xn )n∈N mit f (xn) → −∞ existiert.Aufgrund der Koerzivität ist die Folge (xn )n∈N beschränkt, ansonsten f (xn ) →+∞ gelten würde. Nach dem Satz von Bolzano-Weierstrass existiert ein Häu-fungspunkt x und eine konvergente Teilfolge (xk )k∈N mit xk → x . Aus derStetigkeit folgt nun

f (x) = limk→∞

f (xk ) = −∞,

was allerdings nicht im Bild der Funktion f liegen kann. Damit ist f nach untenbeschränkt und das In�mum M = infx∈RN f (x ) existiert. Wir �nden also eineFolge (xn)n∈N mit limn→∞ f (xn ) = M . Aufgrund der Koerzivität muss dieseFolge wieder beschränkt sein. Mit dem Satz von Bolzano-Weierstrass folgtwieder die Existenz eines Häufungspunktes x∗ und einer Teilfolge (xk )k∈Z mit



xk → x∗. Aus der Stetigkeit erhalten wir schließlich

f (x∗) = limk→∞

f (xk ) = M = infx∈RN

f (x).

Das In�mum wird also an der Stelle x∗ ∈ Rn angenommen, womit x∗ ein glo-baler Minimierer ist. �

20. Optimalitätsbedingungen

Wir leiten notwendige und hinreichende Bedingungen für einen lo-kalen Minimierer her. Die Idee ist hierbei, dass wir uns in einem Mini-

mum be�nden, wenn der Funktionswert in jede Richtung zunehmt oder, bild-lich gesprochen, wenn wir in jede Richtung bergauf gehen würden. Unter derVoraussetzung, dass die Zielfunktion di�erenzierbar ist, bedeutet dies, dass alleRichtungsableitungen nicht negativ sein müssen.

Satz 20.1 (Richtungsableitungen im Minimum). Die Funktion f : RN → Rsei di�erenzierbar auf einer o�enen Menge U ⊂ RN und x∗ ∈ U sei ein lokalerMinimierer von f . Dann gilt

∇f (x∗) • d ≥ 0 (20.1)

für alle d ∈ RN .

Beweis. Angenommen, es gibt eine Richtung d ∈ RN mit negativer Richtungs-ableitung. In diesem Fall wäre also

0 < ∇f (x∗) • d = limtց0

f (x∗ + t d) − f (x∗)t

.

Wegen der strikten Negativität des Grenzwertes, muss der Di�erenzenquotientfür hinreichend kleine t ebenfalls strikt negativ sein. Wir �nden also ein τ > 0,so dass einerseits x∗ + t d ∈ U und andererseits

f (x∗ + t d) − f (x∗)t

< 0



beziehungsweisef (x∗ + t d) < f (x∗)

für alle t ∈ (0, τ ] gilt. Für jedes ϵ > 0 gibt es also einen Punkt x∗ + t d ∈Bϵ (x

∗) mit einem echt kleineren Zielfunktionswert. Somit kann x∗ allerdingskein lokaler Minimierer sein. �

Weil wir für die nicht lineare Optimierung den zulässigen Bereich nicht wei-ter einschränken, können wir für jede Richtung d in (20.1) ebenfalls die Rich-tungsableitung bezüglich −d betrachten. Auf diese Weise erhalten wir für einMinimum die notwendige Bedingung

∇f (x∗) • d = 0

für alle d ∈ RN . Aus den Eigenschaften des Skalarproduktes folgt unmittelbar

∇f (x∗) = 0.

Zusammengefasst erhalten wir somit die folgende notwendige Optimalitätsbe-dingung erster Ordnung, wobei sich die Ordung auf den Grad der verwendetenAbleitungen bezieht.

Satz 20.2 (Notwendige Optimalitätsbedingung 1.Ordnung). Die Funktionf : RN → R sei di�erenzierbar auf der o�enen MengeU ⊂ RN und x∗ ∈ U sei einlokaler Minimierer von f , dann gilt ∇f (x∗) = 0.

Die Optimalitätsbedingung in Satz 20.2 ist lediglich notwendig, da sie eben-falls für Maximierer und Sattelpunkte gilt. Allgemeiner nennen wir einen Punktx∗, deren Gradient verschwindet, einen stationären Punkt. Als nächstes betrach-ten wir eine Optimalitätsbedingung zweiter Ordnung, wobei wir die Hesse-Ma-trix der zweiten partiellen Ableitungen der Funktion f : RN → R mit Hf be-zeichnen.

Satz 20.3 (Notwendige Optimalitätsbedingung 2.Ordnung). Die Funktionf : RN → R sei zweimal stetig di�erenzierbar auf der o�enen Menge U ⊂ RN

und x∗ ∈ U sei ein lokaler Minimierer von f , dann istHf (x∗) positiv semide�nit.

Beweis. Angenommen, dass die Hesse-Matrix H f (x∗) für den Minimierer x∗

nicht positiv semide�nit wäre. Dann �nden wir einen Vektor d ∈ RN mit

dTHf (x∗)d < 0.



Aus der linearen Taylor-Entwicklung mit Restglied

f (x) = f (y) + ∇f (y) • (x − y) + 12 (x − y)

THf (ξ)(x − y)

für eine Zwischenstelle ξ ≔ y + σ (x − y) mit σ ∈ (0, 1) folgt für x ≔ x∗ + t dund y ≔ x∗ zusammen mit Satz 20.2

f (x∗ + t d) = f (x∗) + t2

2 dTHf (ξt )d

mit der Zwischenstelle ξt = x∗ + σt d und σ ∈ (0, 1).Wegender Stetigkeit der zweitenAbleitungHf (·) können dieHesse-Matrizen

Hf (ξt ) für alle hinreichend kleinen t ebenfalls nicht positiv semide�nit sein.Genauer �nden wir immer ein τ > 0, so dass

dTHf (ξt )d < 0 für alle t ∈ (0, τ ]

gilt. Aus dieser Beobachtung können wir schließen, dass

f (x∗ + t d) = f (x∗) + t2

2 dTHf (ξt )d < f (x∗)

für alle t ∈ (0, τ ] ist. Wie in Beweis von Satz 20.1 kann x∗ in diesem Fall keinlokaler Minimierer sein. �

Wie die Optimalitätsbedingung erster Ordnung ist auch die Optimalitätsbe-dingung zweiter Ordnung lediglich notwendig, da diese auch für Sattelpunkteerfüllt sein kann. Eines der einfachsten Beispiele hierfür ist die Funktion f : R →R mit x 7→ x3. O�ensichtlich ist x∗ = 0 ein Sattelpunkt. Die zweite Ableitungbeziehungsweise die Hesse-Matrix ist hier gegeben durch f ′′(x∗) =Hf (x

∗) = 0

und somit ebenfalls positiv semide�nit.

Satz 20.4 (Hinreichende Optimalitätsbedingung 2.Ordnung). Die Funkti-on f : RN → R sei zweimal stetig di�erenzierbar auf einer o�enenMengeU ⊂ RN

und x∗ ∈ U erfülle die Bedingungen

(i) ∇f (x∗) = 0,

(ii) Hf (x∗) ist positiv de�nit,

dann hat f in x∗ ein strikt lokales Minimum.



Beweis. Wie im Beweis von Satz 20.3 folgt aus Bedingung (i) und der Taylor-Entwicklung

f (x∗ + t d) = f (x∗) + t2

2 dTHf (ξt )d

für ein ξt = x∗ + σt d mit σ ∈ (0, 1). Wenn wir zeigen können, dass der zwei-te Summand für alle x∗ + t d hinreichend nahe bei x∗ positiv ist, erhalten wirunmittelbar die Behauptung.

Hierfür zeigen wir, dass die positive De�nitheit der Hesse-MatrixHf (x∗) an

der Stelle x∗ in gewisser Weise gleichmäßig erfüllt wird. Genauer haben wir

dTHf (x∗)d = ‖d‖2 dT

‖d‖ Hf (x∗) d‖d‖ ≥ ‖d‖

2 infd∈R‖d‖=1

dTHf (x∗)d.

Weil die Sphäre {d ∈ RN : ‖d‖ = 1} o�ensichtlich kompakt ist, wird das In-�mum, welches wir nachfolgend mit µ bezeichnen, nach dem Satz von Weier-

strass für ein d angenommen. Aufgrund positiver De�nitheit folgt die Positivi-tät von µ > 0.

Basierend auf dieser Beobachtung folgt aus der Taylor-Entwicklung die Ab-schätzung

f (x∗ + t d) = f (x∗) + t2

2 dTHf (x∗)d + t2

2 dT(

Hf (ξt ) −Hf (x∗)

)

d

≥ f (x∗) + t2

2

(

µ − ‖Hf (ξt ) −Hf (x∗)‖

)

.

Aufgrund der Stetigkeit der zweiten AbleitungHf (·) �nden wir weiter ein ϵ > 0

mit‖Hf (ξt ) −Hf (x

∗)‖ < µ

für alle t ‖d ‖ ∈ (0, ϵ]. Insbesondere erhalten wir somit

f (x∗ + t d) > f (x∗)

für alled ∈ RN und t ∈ (0, τ ]mit t ‖d ‖ ∈ (0, ϵ], womitx∗ ein strikterMinimiererauf Bϵ (x

∗) ist. �

Ohne weitere Einschränkungen ist diese Bedingung wiederum nur hinrei-chend, aber nicht notwendig. Zum Beispiel ist die zweite Ableitung oder dieHesse-Matrix der Funktion f : R → R mit x 7→ x4 gegeben durch f ′′(x ) =Hf (x ) = 12x2 an der Stelle x∗ = 0 nur positive semide�nit, obwohl x∗ sogar einstrikter globaler Minimierer ist.



Weil die partiellen Ableitungen einer Funktion als Grenzwerte von Di�eren-zenquotienten nur lokale Informationen beinhalten, was sich unmittelbar auf dieAbleitung selbst überträgt, können wir in der Regel nur lokale Minimierer mitHilfe von Ableitungen charakterisieren. Wie so oft bilden die konvexen Funk-tionen eine Ausnahme von dieser Regel.

Satz 20.5 (Notwendige und hinreichende Optimalitätsbedingungen fürkonvexe Funktionen). Die Funktion f : RN → R sei konvex und auf der o�e-nen MengeU ⊂ RN di�erenzierbar. Der Punkt x∗ ∈ U ist ein globaler Minimierervon f genau dann, wenn ∇f (x∗) = 0.

Beweis. Die Notwendigkeit dieser Optimalitätsbedingung haben wir bereits inSatz 20.2 gezeigt. Für konvexe Funktionen gilt nach Lemma 16.5 die Abschätzung

f (x) − f (x∗) ≥ ∇f (x∗) • (x − x∗),

womit wir für jeden stationären Punkt

f (x) ≥ f (x∗) für alle x ∈ RN

erhalten. �


Kapitel VI.

Allgemeine numerische Verfahren

21. Abstiegsverfahren

Bildlich können wir uns ein nicht-lineares Minimierungsproblem wie einGebirge vorstellen, in welchem wir versuchen ein Tal zu �nden. Die ein-

fachste Idee um dieses zu erreichen, ist es von einem beliebigen Startpunkt ausimmer bergab zu gehen. Basierend auf dieser einfachenMotivation erhalten wirden folgenden allgemeinenAlgorithmus zum Bestimmen eines lokalenMinimie-rers.

Algorithmus 21.1 (Allgemeines Abstiegsverfahren).Voraussetzung:

• Startpunkt x0 ∈ RN .

(1) Wenn ∇f (x∗) = 0, dann beende den Algorithmus.

→ STOP

(2) Wähle eine Suchrichtung sn ∈ RN mit ∇f (xn) • sn < 0.

(3) Wähle eine Schri�weite σn > 0 mit

f (xn + σsn ) < f (x∗)

(4) Setze xn+1 ≔ xn + σnsn und n = n + 1.


Um die Konvergenz von Algorithmus 21.1 zu gewährleisten, müssen wir dieSuchrichtungen sn und die Schrittweitenσn geeignetwählen. Das Verfahren kon-vergiert global, wenn jeder Häufungspunkt von (xn )n∈N für beliebigen Startwert


108 VI. Allgemeine numerische Verfahren

x0 ein stationärer Punkt der Zielfunktion f ist. Bei lokaler Konvergenz gilt diesnur für Startwerte, die in einem Ball Bϵ (x

∗) mit ϵ > 0 um einem stationärenPunkt x∗ liegen.

Nachfolgend nennen wir eine Suchrichtungsfolge (sn )n∈N zulässig, wenn

∇f (xn ) • sn < 0 für alle n ∈ N

und∇f (xn) • sn

‖sn‖ → 0 impliziert ∇f (xn ) → 0.

Die erste Bedingung sichert hierbei, dass jede Suchrichtung sn eine Abstiegsrich-tung im Punkt xn ist. Die zweite Bedingung besagt, dass die Richtungsableitungbezüglich der Suchrichtung nur gegen null fallen darf, wenn der Gradient ver-schwindet. Auf diese Weise verhindern wir, dass wir zum Beispiel einer Niveau-linie der Zielfunktion folgen ohne einen Abstieg zu machen. O�ensichtlich istdie negative Gradientenfolge (−∇f (xn ))n∈N eine zulässige Suchrichtungsfolge.

Lemma 21.2 (Zulässige Suchrichtungsfolgen). Die Funktion f : RN → Rsei stetig di�erenzierbar und (sn )n∈N mit sn , 0 sei eine durch Algorithmus 21.1erzeugte Suchrichtungsfolge. Existiert ein η > 0 mit

−∇f (xn) • sn

‖∇f (xn)‖ ‖sn‖ ≥ η für alle n ∈ N, (21.1)

dann ist (sn )n∈N zulässig.

Beweis. Wir nehmen an, dass die Suchrichtungsfolge (sn )n∈N nicht endlich ist,was nur möglich ist, wenn Algorithmus 21.1 nicht vorzeitig abbricht. Wir kön-nen also insbesondere voraussetzen, dass weder die Gradienten∇f (xn) noch dieSuchrichtungen sn verschwinden. Durch Umstellen der Winkelbedingung (21.1)erhalten wir

−∇f (xn ) • sn ≥ η (‖∇f (xn )‖ • ‖sn‖) > 0.

Somit sind alle Suchrichtungen sn Abstiegsrichtungen und die erste Bedingungfür die Zulässigkeit ist erfüllt. DesWeiteren folgt aus derWinkelbedingung (21.1)unmittelbar

∇f (xn) • sn

‖sn‖→ 0 impliziert ‖∇f (xn)‖ ≤ 1

η

−∇f (xn) • sn

‖sn‖→ 0,

womit die zweite Zulässigkeitsbedingung ∇f (xn ) → 0 erfüllt ist. �


21. Abstiegsverfahren 109

Für die Konvergenz des allgemeinen Abstiegsverfahrens müssen neben denSuchrichtungen ebenfalls die Schrittweiten geeignet gewählt werden. Nachfol-gend nennen wir ein Schrittweitenfolge (σn )n∈Z zulässig, wenn die gewähltenSchrittweiten zur Suchrichtungsfolge (sn )n∈N den Zielfunktionswert nicht ver-größern, was äquivalent zu

f (xn + σn sn ) ≤ f (xn) für alle n ∈ N

ist, und falls die Bedingung

f (xn + σnsn ) − f (xn) → 0 impliziert

∇f (xn ) • sn

‖sn‖ → 0

erfüllt wird. Wenn garantiert ist, dass ein gewisser Mindestabstieg eingehaltenwird, nennen wir die Schrittweitenfolge e�zient.

Definition 21.3 (E�iziente Schri�weiten). Sei (sn)n∈N eine gegebene Folgevon Suchrichtungen. Die zugehörigen Schrittweitenfolge (σn )n∈N heißt e�zient,falls eine Konstante θ > 0 existiert mit

f (xn + σn sn ) ≤ f (xn ) − θ

(

∇f (xn ) • sn

‖sn‖

)2

für alle n ∈ N.

E�ziente Suchrichtungsfolgen sind insbesondere zulässig.

Lemma 21.4 (Zulässigkeit von e�izienten Schri�weiten). Die Funktionf : RN → R sei stetig di�erenzierbar und (sn )n∈N sei eine durch Algorithmus 21.1erzeugte Suchrichtungsfolge. Ist die Schrittweitenfolge (σn )n∈N e�zient, dann istdiese ebenfalls zulässig.

Beweis. Da die Konstante θ positiv sein muss, folgt aus der E�zienz sofort,dass die Funktionswerte der erzeugten Folge (xn )n∈N nicht zunehmen können.Weiterhin folgt aus der E�zienzbedingung

(

∇f (xn ) • sn

‖sn‖

)2

≤ 1

θ

(

f (xn) − f (xn + σn sn ))

und somit die zweite Bedingung für die Zulässigkeit. �

Sind sowohl die Suchrichtungen als auch die Schrittweiten zulässig, könnenwir die globale Konvergenz des allgemeinen Abstiegsverfahrens zeigen.



Satz 21.5 (Globale Konvergenz). Die Funktion f : RN → R sei stetig di�e-renzierbar, dann bricht Algorithmus 21.1 nach endlich vielen Schritt ab oder er-zeugt eine nicht endliche Folgen an Punkten (xn )n∈N , Suchrichtungen (sn )n∈N undSchrittweiten (σn)n∈N . Sind die Suchrichtungen (sn )n∈N und Schrittweiten (σn)n∈Nzulässig, dann ist jeder Häufungspunkt von (xn )n∈N ein stationärer Punkt.

Beweis. Wir betrachten nur den interessanten Fall, dass Algorithmus 21.1 nichtnach endlich vielen Schritten abbricht. Unter der Annahme, dass x∗ ein Häu-fungspunkt der Folge (xn )n∈N ist, �nden wir eine geeignete Teilfolge (xk )k∈Nmit xk → x∗. Aufgrund der Stetigkeit folgt für die Folge der Zielfunktionswertf (xk ) → f (x∗).Als nächstes betrachtenwir die Zielfunktionsfolge der gesamten Folge (xn )n∈N.

Wegen der Zulässigkeit der Schrittweite muss ( f (xn))n∈N monoton fallend seinund ebenfalls konvergieren. Als Grenzwert kommt hierbei nur der Funktions-wert f (x∗) des Häufungspunktes x∗ in Frage. Summieren wir die Di�erenzenzwischen den Zielfunktionswerten auf, erhalten wir

∞∑

n=0

f (xn+1) − f (xn) = limn→∞

f (xn ) − f (x0) = f (x∗) − f (x0).

Die Konvergenz der Reihe impliziert, dass die Di�erenzen f (xn+1) − f (xn ) eineNullfolge bilden.

Mit der Zulässigkeit der Schrittweiten und der Suchrichtungen gilt für dieRichtungsableitungen und den Gradienten

∇f (xn ) • sn

‖sn‖→ 0 und ∇f (xn) → 0.

Beschränkenwir uns auf die Teilfolge mit Grenzwertx∗ können wir unmittelbarauf

∇f (x∗) = limk→∞∇f (xk ) = 0

schließen, womit x∗ stationär ist. �


22. Schrittweitenregeln 111

22. Schri�weitenregeln

Haben wir eine Folge von Suchrichtungen gegeben, wie lassen sich fürdiese geeignete zulässige Schrittweiten bestimmen? Eine naheliegende

Schrittweitenvorschrift wäre eine Schrittweite zu wählen, welche den Zielfunk-tionswert größtmöglich verkleinert. Hierfür müssten wir in jeder Iteration daseindimensionale Minimierungsproblem

σn ≔ argminσ>0

f (xn + σ sn )

lösen. Obwohl diese Regel zunächst eine bestmögliche Schrittweitenwahl dar-stellt, kann diese leider nur in Ausnahmefällen, zum Beispiel für quadratischeZielfunktionen, durchgeführt werden. Um das allgemeine Abstiegsverfahren inAlgorithmus 21.1 numerisch umsetzen zu können, benötigen wir einfach zu be-stimmende Schrittweiten.

22.1. Armijo-Regel

Die erste Schrittweitenregel, welche wir genauer untersuchenwerden, ist die so-genannteArmijo-Regel. Die Idee ist hierbei eine Schrittweite zu wählen, welchedie Armijo-Bedingung

f (xn + σn sn ) − f (xn ) ≤ γσn (∇f (xn) • sn ) (22.1)

für ein gegebenes γ > 0 erfüllt. Anschaulich soll der Abstieg mindestens derlinearisierten Funktion f (xn) − γσ (∇f (xn) • sn ) entsprechen. Üblicherweisewird γ klein gewählt, zum Beispiel γ ≔ 10−2.

Lemma 22.1 (Existenz der Armijo-Schri�weiten). Die Funktion f : RN →R sei stetig di�erenzierbar auf einer o�enen Menge U ⊂ RN und γ ∈ (0, 1) seigegeben. Für die Abstiegsrichtung sn in xn ∈ U existiert dann ein σ ∈ (0, 1] mit

f (xn + σ sn ) − f (xn) ≤ σγ (∇f (xn ) • sn )

für alle σ ∈ [0,σ ].



Beweis. Wir dividieren die Armijo-Bedingung durch σ und untersuchen dasGrenzverhalten für σ → 0. Wegen γ ∈ (0, 1) erhalten wir auf diese Weise

limσց0

f (xn + σ sn ) − f (xn )σ

− γ (∇f (xn ) • sn ) = (1 − γ ) (∇f (xn ) • sn ) < 0.

Aufgrund der strikten Ungleichung, �nden wir immer ein σ ∈ (0, 1] mit

f (xn + σ sn ) − f (xn )σ

− γ (∇f (xn) • sn ) < 0

für alle σ ∈ (0,σ]. Für σ = 0 ist die Behauptung trivial. �

In anderen Worten wählen wir die Schrittweite σ nur hinreichend klein, wirddie Armijo-Bedingung irgendwann erfüllt. Basierend auf dieser Beobachtungkönnen wir eine Armijo-Schrittweite mit folgendem Algorithmus bestimmen.

Algorithmus 22.2 (Armijo-Regel).Voraussetzungen:

• β ∈ (0, 1), γ ∈ (0, 1),

• xn ∈ RN , s ∈ RN .

(1) Wähle den Startwert σn = 1.

(2) Setze σn = βσn bis die Armijo-Bedingung

f (xn + σn sn ) − f (xn) ≤ σnγ (∇f (xn) • sn )

erfüllt ist.

Die Armijo-Regel liefert nicht automatisch eine Folge von zulässigen Schritt-weiten. Um die Zulässigkeit der erzeugten Schrittweiten zu garantieren, müssendie Suchrichtungen ebenfalls geeignet gewählt worden sein.

Satz 22.3 (Zulässigkeit der Armijo-Schri�weiten). Die Funktion f : RN →R sei stetig di�erenzierbar. Die Folge (xn )n∈N sei beschränkt und die Suchrichtun-gen (sn )n∈N seien Abstiegsrichtungen mit

‖sn‖ ≥ ϕ(

−∇f (xn) • sn

‖sn‖

)

für alle n ∈ N, (22.2)



wobei ϕ eine streng monoton wachsende Funktion von [0,∞) nach [0,∞) bezeich-net. Dann ist die von Algorithmus 22.2 erzeugte Schrittweitenfolge (σn)n∈N zulässig.

Beweis. Da für eine Abstiegsrichtung sn die rechte Seite der Armijo-Bedin-gung in (22.1) negativ wird, wird die erste Bedingung für zulässige Schrittweitenimmer erfüllt. Um die Implikation in der zweite Bedingung zu zeigen, setzen wirzunächst voraus, dass die Folge der Richtungsableitungen

∇f (xn ) • sn

‖sn‖9 0

nicht nach null konvergiert. Wenn wir zeigen können, dass unter dieser Vor-aussetzung die Folge ( f (xn+1) − f (xn))n∈N ebenfalls keine Nullfolge sein kann,erhalten wir die Behauptung.

Weil alle Suchrichtungen Abstiegsrichtungen sind, ist unsere Annahme äqui-valent zu der Existenz eines ϵ > 0 sowie der Existenz zweier gemeinsamer Teil-folgen (xk )k∈N und (sk )k∈N mit

−∇f (xk ) • sk

‖sk ‖≥ ϵ für alle k ∈ N.

Wenden wir Voraussetzung (22.2) auf diese Teilfolgen an, muss die Norm derSuchrichtungen in der Teilfolge nach unten durch

‖sk ‖ ≥ ϕ(

−∇f (xk ) • sk

‖sk ‖

)

≥ ϕ (ϵ ) =: δ ≥ 0.

beschränkt sein.

Als nächstes wenden wir den Mittelwertsatz auf die Armijo-Bedingung an.Die allgemeine Aussage des Mittelwertsatzes ist, dass für jedes x,y ∈ RN einθ ∈ (0, 1) existiert, so dass

f (x) = f (y) + ∇f (ξ) • (x − y)

mit ξ = y + θ (x − y) gilt. Zusammen mit der Cauchy-Schwarz-Ungleichung�nden wir damit für jedes Element der Teilfolge ein θk ∈ (0, 1), so dass mit τk ≔θk σk die Abschätzung

f (xk + σk sk ) − f (xk )

‖σk sk ‖−σkγ (∇f (xk ) • sk )

‖σk sk ‖



=

∇f (xk + τk sk ) • sk

‖sk ‖− γ∇f (xk ) • sk

‖sk ‖

(

±∇f (xk ) • sk

‖sk ‖

)

≤ ‖∇f (xk + τk sk ) − ∇f (xk )‖ + (1 − γ )∇f (xk ) • sk

‖sk ‖

≤ ‖∇f (xk + τk sk ) − ∇f (xk )‖ − (1 − γ ) ϵ

gilt. Die Armijo-Bedingung (22.1) für die Schrittweiten σk wird also spätestensfür

‖∇f (xk + τk sk ) − ∇f (xk )‖ ≤ (1 − γ )ϵ

erfüllt.

Um zu zeigen, dass die Schrittweiten σk nicht beliebig klein werden können,nutzen wir die Beschränktheit der erzeugten Folge (xk )n∈N . Nach dem Satz vonHeine-Borel ist die stetige Ableitung ∇f auf jedem Ball {x ∈ RN : ‖x‖ ≤ M}mit M > 0 sogar gleichmäßig stetig. Es existiert also ein ρ > 0, so dass für alled ∈ Bρ (0) und für alle k ∈ N die Ungleichung

‖∇f (xk + d) − ∇f (xk )‖ < (1 − γ ) ϵ

hält. Damit ist die Armijo-Bedingung spätestens für

σk ≤ρ

‖sk ‖(22.3)

gültig.

Nach Algorithmus 22.2 haben die Armijo-Schrittweiten die Form σk = βm−1

mitm ∈ N. Es können nun zwei Fälle eintreten. Entweder erfüllt σk = 1 bereitsdie Armijo-Bedingung (22.1) oder σk ≤ β und σk/β erfüllt noch nicht die Armijo-Bedingung. Berücksichtigen wir (22.3), bedeutet dies für den zweiten Fall ins-besondere σk/β > ρ‖sk ‖−1. In beiden Fällen erhalten wir wegen ‖sk ‖ ≥ δ dieAbschätzung

σk ‖sk ‖ ≥ min{βρ, δ } ≕ η > 0 für alle n ∈ N.

Insgesamt erhalten wir aus der Armijo-Bedingung für die betrachtete Teilfolge

f (xk ) − f (xk + σk sk ) ≥ −σkγ (∇f (xk ) • sk )

= γ

(

−∇f (xk ) • sk

‖sk ‖

)

σk ‖sk ‖ ≥ γϵη > 0,



womit die Folge f (xn +σn sn )− f (xn) eine nicht nach null konvergierende Teil-

folge besitzt. Durch Kontraposition folgt die zweite Zulässigkeitsbedingung. �

22.2. Powell-Wolfe-Regel

DiePowell-Wolfe-Regel oder auchWolfe-Powell-Regel soll garantieren, dassauch bei kurzen Suchrichtungen sn der tatsächliche Schritt σn s

n hinreichendgroß ist. Dafür wird neben der Armijo-Regel (22.1) mit γ ∈ (0, 1/2) zusätzlich dieKrümmungsbedingung

− ∇f (xn + σn sn ) • sn ≤ −η (∇f (xn) • sn ) (22.4)

für einη ∈ (γ , 1) gefordert. Anschaulich soll die Ableitung in Richtung sn entlangder Suchrichtung hinreichend reduziert werden. Die beiden Ungleichung (22.1)und (22.4) werden zusammen als Powell-Wolfe-Bedingung bezeichnet. Übli-cherweise wird γ klein und η groß gewählt, zum Beispiel γ = 10−2 und η = 0,9.

Lemma 22.4 (Existenz der Powell-Wolfe-Schri�weiten). Die Funktionf : RN → R sei stetig di�erenzierbar und nach unten beschränkt. Weiter sei sn

eine Abstiegsrichtung für f in xn. Dann existiert für alle γ ∈ (0, 1/2) und η ∈ (γ , 1)ein σn > 0 mit

f (xn + σn sn ) − f (xn) ≤ γσn (∇f (xn ) • sn )

und−∇f (xn + σn sn ) • sn ≤ −η (∇f (xn) • sn ).

Beweis. Wir betrachten die Funktion

ψ (σ ) ≔ f (xn + σ sn ) − f (xn) − σγ (∇f (xn ) • sn ) (22.5)

O�ensichtlich ist die Armijo-Bedingung genau dann erfüllt, wenn die Funktionϕ negativ wird. Für jede Abstiegsrichtung sn erhalten wir

ψ (0) = 0 und ψ ′(0) = (1 − γ ) (∇f (xn ) • s) < 0,

womit die Armijo-Bedingung für hinreichend kleine σ erfüllt wird. Aus der Be-schränktheit von f nach unten folgt außerdem ψ (σ ) → ∞ für σ → ∞. Somitmuss ϕ eine positive Nullstelle σ > 0 besitzen mit ψ (σ ) < 0 für alle σ ∈ (0,σ ).Insbesondere erfüllt σ selbst die Armijo-Bedingung (22.1).



Für die erste Ableitung der Funktion ψ an der Stelle σ erhalten wir mit derKettenregel

ψ ′(σ ) = ∇f (xn + σ sn ) • sn − γ (∇f (xn) • sn ).

Insbesondere muss die Ableitung positiv sein, weil σ die nächste rechts von nullgelegene Nullstelle ist. Mit der Parameterwahl η ≥ γ folgt

∇f (xn + σ sn ) • sn ≥ γ (∇f (xn ) • sn )≤0

> η (∇f (xn) • sn ).

Somit erfüllt σ die Krümmungsbedingung (22.4). �

Basierend auf dem Beweis von Lemma 22.4 können wir eine Powell-Wolfe-Schrittweite mit Hilfe der Bisektionsmethode bestimmen.

Algorithmus 22.5 (Powell-Wolfe-Regel).Voraussetzungen:

• γ ∈ (0, 1/2), η ∈ (γ , 1),• xn ∈ RN , sn ∈ RN .

(1) Bestimme Intervallgrenzen σ− und σ+: Für den Startwert σ− ≔ 1 setze

σ− ≔ 1/2σ− bis

ψ (σ−) = f (xn + σ− sn ) − f (xn ) − σ−γ (∇f (xn) • sn ) ≤ 0.

Im Fall σ− = 1 setze σ− ≔ 2σ− bis

ψ (2σ−) = f (xn + 2σ− sn ) − f (xn) − 2σ−γ (∇f (xn) • sn ) > 0.

Setze σ+ ≔ 2σ−.

(2) Bisektionsmethde: Solange die Krümmungsbedingung

∇f (xn + σ−sn ) • sn ≥ η (∇f (xn) • sn )

verletzt wird, berechne σ ≔ 1/2σ− + 1/2 σ+. Falls ψ (σ ) ≤ 0, setze σ− ≔ σ

ansonsten σ+ ≔ σ .

(3) Akzeptiere σ− als Powell-Wolfe-Schri�weite.



Satz 22.6 (Berechenbarkeit der Powell-Wolfe-Schri�weite). Die Funkti-on f : RN → R sei stetig di�erenzierbar und nach unten beschränkt. Weiter seiensn ∈ RN eine Abstiegsrichtung für f in xn ∈ RN sowie γ ∈ (0, 1/2) und η ∈ (γ , 1)

gegeben. Dann bricht Algorithmus 22.5 nach endlich vielen Schritten mit einer Po-well-Wolfe-Schrittweite σn ab.

Beweis. Weil die Funktion f nach unten beschränkt ist und sn eine Abstiegs-richtung ist, gilt wieder

ψ (σ ) ≔ f (xn + σ sn ) − f (xn) − σγ (∇f (xn) • sn ) →∞

für σ → ∞. Zusammen mit Lemma 22.1 bricht Schritt (1) nach endlich vielenSchritten mit einem Paar (σ−,σ+) ab, wobei σ− die Armijo-Bedingung erfülltund σ+ nicht. Die Bisektionsmethode erzeugt nun ein neues Intervall (σ−,σ+)halber Länge, wobei die Bedingung

ψ (σ−) ≤ 0 < ψ (σ+)

erhalten bleibt.Angenommen die Bisektionsmethode würde nicht abbrechen, dann gibt es ein

σ mit σ− → σ und σ+ → σ . Aufgrund der Stetigkeit von ψ folgt unmittelbarψ (σ ) = 0. Da die Ableitung vonψ in σ wieder positiv ist, gilt analog zum Beweisvon Lemma 22.4

∇f (xn + σ sn ) • sn ≥ γ (∇f (xn ) • sn ) > η (∇f (xn ) • sn ).

Wegen der vorausgesetzten Stetigkeit der ersten Ableitung ∇f ist strikte Unglei-chung ebenfalls für alle σ− hinreichend nahe bei σ erfüllt. Für diese bricht dieIteration im Widerspruch zur Annahme allerdings ab. �

Vollkommen analog zu Satz 22.3 sind die Powell-Wolfe-Schrittweiten auf-grund der enthaltenen Armijo-Bedingung zulässig. Unter der Annahme, dass fLipschitz-stetig di�erenzierbar ist, was bedeutet, dass eine Konstante L existiert,so dass

‖∇f (x) − ∇f (y)‖ ≤ L‖x − y‖

für alle x,y ∈ RN , können wir sogar die E�zienz der Powell-Wolfe-Schritt-weiten zeigen.



Satz 22.7 (E�izienz der Powell-Wolfe-Schri�weiten). Die Zielfunktionf : RN → R sei Lipschitz-stetig di�erenzierbar und nach unten beschränkt.Weitersei (sn )n∈N eine Folge von Abstiegsrichtungen. Dann erzeugt der Algorithmus 22.5eine Folge von e�zienten Schrittweiten.

Beweis. Nach Satz 22.6 ist die Powell-Wolfe-Regel stets durchführbar. Ausder Krümmungsbedingung (22.4), der Cauchy-Schwarz-Ungleichung und derLipschitz-Stetigkeit erhalten wir

(η − 1) (∇f (xn ) • sn ) ≤(

∇f (xn + σn sn ) − ∇f (xn ))

• sn

≤ ‖∇f (xn + σn sn ) − ∇f (xn )‖ ‖sn‖

≤ Lσn ‖sn‖2.

Stellen wir diese Ungleichung nach σn um, folgt

σn ≥(η − 1) (∇f (xn ) • sn )

L‖sn‖2 .

Setzen wir diese Abschätzung in die Armijo-Bedingung (22.1) ein, erhalten wirschlussendlich

f (xn + σn sn ) ≤ f (xn) + γσn (∇f (xn) • sn )

≤ f (xn) +(η − 1)γ

L

(∇f (xn ) • sn )2

‖sn‖2

≤ f (xn) − θ(

∇f (xn) • sn

‖sn‖

)2

mit θ ≔ (1 − η) γL−1 > 0, womit die E�zienz der Schrittweiten gezeigt ist. �


Kapitel VII.

Gradienten-artige Abstiegsverfahren

23. Das Gradientenverfahren

Die Konvergenz des allgemeinen Abstiegsverfahrens hängt in beson-derem Maße von den verwendeten Suchrichtungen und Schrittweiten ab.

Wir haben bereits gesehen, dass die negativeGradientenrichtung sn := −∇f (xn )eine zulässige Suchrichtungsfolge ist, welche beim Gradientenverfahren zusam-men mit der Armijo-Regel Verwendung �ndet.

Algorithmus 23.1 (Gradientenverfahren).Voraussetzung: Startpunkt x0 ∈ RN .

(1) Wenn ∇f (xn ) = 0, dann beende en Algorithmus.

→ STOP

(2) Setze sn := −∇f (xn ).(3) Bestimme σn mit Algorithmus 22.2 (Armijo-Regel).

(4) Setze xn+1 := xn + σn sn und n ≔ n + 1.


Um die Konvergenz des Gradientenverfahrens zu zeigen, untersuchen wir dieZulässigkeit der negativen Gradientenrichtung im Zusammenspiel mit der Ar-mijo-Schrittweite.

Satz 23.2 (Globale Konvergenz des Gradientenverfahrens). Die Funktionf : RN → R sei stetig di�erenzierbar, dann bricht Algorithmus 23.1 nach endlich


120 VII. Gradienten-artige Abstiegsverfahren

vielen Schritten ab oder erzeugt eine nicht endliche Folge (xn)n∈N deren Häufungs-punkte stationär sind.

Beweis. O�ensichtlich ist −∇f (xn ) eine zulässige Suchrichtungsfolge. Für dieZulässigkeit der Schrittweiten verwenden wir Satz 22.3, wobei wir Funktion ϕals ϕ (t ) = t wählen. Genauer haben wir

‖sn‖ ≥ ϕ(

−∇f (xn ) • sn

‖sn‖

)

= ‖∇f (xn )‖,

was immer erfüllt ist. Die globale Konvergenz folgt nun aus Satz 21.5. �

24. Gradientenähnliche Verfahren

Obwohl das Gradientenverfahren nach Satz 23.2 konvergiert, kann manBeispiele konstruieren, in denen die Konvergenz beliebig langsam ist. Da-

her ist es sinnvoll neben der negativen Gradientenrichtung auch andere Such-richtungen zu zulassen. Weichen die gewählten Suchrichtungen nicht zu starkvon der negativen Gradientenrichtung −∇f (xn ) ab, bleibt die globale Konver-genz aus Satz 23.2 erhalten.

Algorithmus 24.1 (Gradientenähnliche Verfahren).Voraussetzungen: x0 ∈ RN , γ ∈ (0, 1) und β ∈ (0, 1).

(1) Wenn ∇f (xn ) = 0, dann beende den Algorithmus.

→ STOP

(2) Bestimme sn ∈ RN mit ∇f (xn ) • sn < 0.

(3) Bestimme eine Armijo-Schri�weite σn ≔ max{βℓ : ℓ = 0, 1, 2, . . . } mit

f (xn + βℓ sn ) ≤ f (xn) + γ βℓ (∇f (xn ) • sn ).

(4) Setze xn+1 ≔ xn + σn sn und n ≔ n + 1.


Um die Ähnlichkeit der Suchrichtungen mit dem negativen Gradienten ma-thematisch zu beschreiben, verwenden wir die folgende De�nition.


24. Gradientenähnliche Verfahren 121

Definition 24.2 (Gradientenähnlichkeit). Die Funktion f : RN → R sei ste-tig di�erenzierbar und (xn )n∈N sei eine Folge in RN . Eine Suchrichtungsfolge(sn )n∈N heißt gradientenähnlich bezüglich f und (xn)n∈N , wenn für jede gegeneinen nicht stationären Punkt konvergente Teilfolge (xk )k∈N Konstanten c > 0

und ϵ > 0 existieren mit

(i) ‖sk ‖ ≤ c für jedes k ∈ N,

(ii) ∇f (xk ) • sk ≤ −ϵ für alle hinreichend großen k ∈ N.

O�ensichtlich ist die negative Gradientenrichtung sn = −∇f (xn ) des Gra-dientenverfahrens eine gradientenähnliche Suchrichtung. Um die globale Kon-vergenz der gradientenähnlichen Abstiegsverfahren zu beweisen, zeigen wir zu-nächst, dass der aktuelle Punkt und die Richtung im Di�erenzenquotienten derRichtungsableitung durch Folgen ersetzt werden können.

Lemma 24.3 (Stetigkeit der Richtungsableitung). Die Funktion f : RN →R sei stetig di�erenzierbar und (xn )n∈N, (s

n )n∈N und (σn)n∈N seinen Folgen mitxn → x, sn → s, σn → 0 und σn > 0. Dann gilt für den Di�erenzenquotienten derRichtungsableitung

limn→∞

f (xn + σn sn ) − f (xn )

σn= ∇f (x) • s.

Beweis. Um die Behauptung zu zeigen, verwenden wir den Mittelwertsatz aufden Di�erenzenquotienten an. Für jedes n ∈ N existiert somit ein ξn auf derVerbindungsstrecke zwischen xn und xn + σn s

n mit

f (xn + σn sn ) − f (xn) = σn (∇f (ξn ) • sn ).

Weil o�ensichtlich beide Enden der Verbindungsstrecke für n → ∞ nach x kon-vergieren, erhaltenwir ξn → x. Aus der Stetigkeit der Gradientenfunktion∇f (·)und des Skalarproduktes folgt nun

limn→∞

f (xn + σn sn ) − f (xn)

σn= lim

n→∞∇f (ξn) • sn = ∇f (x) • s �



Satz 24.4 (Globale Konvergenz der gradientenähnlichen Verfahren). DieFunktion f : RN → R sei stetig di�erenzierbar. Dann bricht Algorithmus 24.1 nachendlich vielen Schritten ab oder erzeugt nicht endliche Folgen (xn )n∈N und (sn )n∈N.Wenn (sn )n∈N gradientenähnlich bezüglich f und (xn )n∈N ist, dann ist jeder Häu-fungspunkt von (xn )n∈N stationär.

Beweis. Wir nehmen an, dass der Häufungspunkt x∗ nicht stationär ist. Da dieFolge der Zielfunktionswerte ( f (xn ))n∈N monoton fällt, folgt analog zumBeweisvon Satz 21.5 wieder f (xn) → f (x∗) beziehungsweise f (xn ) − f (xn+1) → 0.Durch Umformen der Armijo-Regel in Schritt (3) von Algorithmus 24.1 erhaltenwir unmittelbar

σn (∇f (xn) • sn ) → 0. (24.1)

Aufgrund der Gradientenähnlichkeit der Suchrichtungsfolge (sn )n∈N, existierenfür Teilfolge (xk )k∈N, die gegen den nicht stationären Punkt x∗ konvergiert,Konstanten c > 0 und ϵ > 0 mit

‖sk ‖ ≤ c und ∇f (xk ) • sk ≤ −ϵ (24.2)

für alle hinreichend großen n ∈ N. Somit kann die Folge in (24.1) nur nach nullkonvergieren, wenn σk → 0 gilt.

In Algorithmus 24.1 wählen wir die Schrittweite σk entsprechend der Armijo-Regel in Algorithmus 22.2, wobei wir die Schrittweite mit 0 < β < 1 multiplizie-ren, bis die Armijo-Bedingung erfüllt ist. Haben wir die Schrittweite σk = βℓk

gewählt, kann die Armijo-Bedingung somit nicht für die Schrittweite βℓk−1 er-füllt sein. Betrachten wir die Armijo-Bedingung genauer, muss also

f (xk + βℓk−1 sk ) > f (xk ) + γ βℓk (∇f (xk ) • sk )

oderf (xk + βℓk−1 sk ) − f (xk )

βℓk−1> γ (∇f (xk ) • sk )

gelten. Weil die Suchrichtungsfolge nach (24.2) beschränkt ist, können wir dieTeilfolge weiter ausdünnen, so dass die Folge (sk )k∈N ebenfalls konvergiert, wo-bei wir den Grenzwert mit s∗ bezeichnen. Insgesamt gilt für die konstruierteTeilfolge also xn → x∗, sk → s∗ und βℓk−1 = σk/β → 0. Mit Hilfe von Lemma24.3 erhalten wir damit

∇f (x∗) • s∗ ≥ γ (∇f (x∗) • s∗).



Hierbei ist ∇f (x∗) •s∗ als Grenzwert der Folge in (24.2) nach oben durch −ϵ be-schränkt, was aber der Wahl γ ∈ (0, 1) in der Armijo-Regel widerspricht. Damitmuss x∗ entgegen unserer Annahme ein stationärer Häufungspunkt sein. �

Fordernwir, dass die beiden Bedingungen aus der Gradientenähnlichkeit nichtnur für Teilfolgen mit nicht stationären Grenzwerten sondern in etwas schwä-cherer Form für die gesamte erzeugte Folge erfüllt sind, erhaltenwir die folgendeglobale Konvergenzbedingung.

Korollar 24.5 (Globale Konvergenz der gradientenähnlichen Verfahren).Ist die Funktion f : RN → R stetig di�erenzierbar und erfüllen die Folgen (xn)n∈Nund (sn )n∈N aus Algorithmus 24.1 die Bedingung

(i) ‖sn‖ ≤ c1 ‖∇f (xn )‖p1 ,(ii) ∇f (xn) • sn ≤ −c2 ‖∇f (xn)‖p2

für die Konstanten p1 ≥ 0, p2 ≥ 0, c1 > 0, c2 > 0 und für alle n ∈ N, dann ist jederHäufungspunkt von (xn)n∈N stationär.

Beweis. Weil jede konvergente Teilfolge (xk )k∈N und die zugehörige Gradien-tenfolge (∇f (xk ))k∈N beschränkt sind, ist die Suchrichtungsfolge (sn )n∈N gra-dientenähnlich bezüglich f und (xn )n∈N. �

Für die spezielle Wahl p1 = 1 und p2 = 2 in Korollar 24.5 erhalten wir eineSuchrichtungsfolge, welche die Ungleichung

− ∇f (xn ) • sn

‖∇f (xn)‖ ‖sn‖≥ c2

‖∇f (xn)‖‖sn‖

=

c2

c1

und damit die Winkelbedingung in Lemma 21.2 erfüllt. Die Suchrichtungsfolgeist also insbesondere zulässig. Korollar 24.5 sichert nun für die im Allgemeinennicht zulässigen Armijo-Schrittweiten die globale Konvergenz.

Es bleibt die Frage, wie wir ausgehend vom Gradienten gradientenähnlicheSuchrichtungen konstruieren können. Eine Möglichkeit basiert auf derWahl derneuen Suchrichtung als Lösung eines linearen Gleichungssystems.

Korollar 24.6 (Globale Konvergenz der Newton-ähnlichen Verfahren).Die Funktion f : RN → R sei stetig di�erenzierbar und die Folge (Hn )n∈N besteheaus positiv de�niten, symmetrische Matrizen inRN×N , für welche Konstanten µ1 >



0 und µ2 > 0 existieren mit

µ1‖u‖2 ≤ uTHnu ≤ µ2‖u‖2

für alle u ∈ RN und alle n ∈ N. Werden die Suchrichtungen (sn)n∈N in Algorith-mus 24.1 als Lösungen des Gleichungssystems

Hnsn= −∇f (xn )

gewählt, dann ist jeder Häufungspunkt der Folge (xn)n∈N stationär.

Die Aussage von Korollar 24.6 folgt wieder unmittelbar aus Satz 24.4. Um zuzeigen, dass die erzeugte Suchrichtungsfolge gradientenähnlich ist, benötigenwir den folgenden Hilfssatz.

Lemma 24.7 (Gleichmäßige positive Definitheit). Für jede Folge (Hn)n∈Nvon symmetrischen und positiv de�niten Matrizen sind die folgenden Aussagenäquivalent:

(i) Die beiden Folgen (Hn )n∈N und (H−1n )n∈N sind beschränkt

(ii) Es existieren Konstanten c1 > 0 und c2 > 0 mit

c1 ‖u‖2 ≤ uTHnu ≤ c2 ‖u‖2

für alle u ∈ RN und alle n ∈ N.

(iii) Es existieren Konstanten c3 > 0 und c4 > 0 mit

c3 ‖u‖2 ≤ uTH−1n u ≤ c4 ‖u‖2

für alle u ∈ RN und alle n ∈ N.

Beweis. Für jede positiv de�nite und symmetrische MatrixHn gibt es eine or-thogonale MatrixQn, so dass

Hn = QTnDnQn und H−1

n = QTnD−1n Qn,

wobei Dn = diag(λn1 , ..., λnN) die Diagonalmatrix der aufsteigend sortierten Ei-

genwerte vonHn bezeichnet. Für die Spektralnormen der Matrixfolge (Hn )n∈Nund der invertierten Folge (H−1

n )n∈N , folgt aus der Diagonalisierung

‖Hn‖ = ‖Dn‖ = λnN und ‖H−1n ‖ = ‖D−1n ‖ = 1

λn1. (24.3)



Wir setzen zunächst voraus, dass die Folgen (Hn )n∈N und (H−1n )n∈N beschränkt

sind. Es existiert also ein c > 0 mit

‖Hn‖ ≤ c und ‖H−1n ‖ ≤ c

für alle n ∈ N. Mit Hilfe von (24.3) können wir direkt die restlichen Eigenwerteder MatrizenHn und H−1

n durch

λnm ≤ λnN ≤ c und 1λnm≤ 1

λn1≤ c

für alle n ∈ N undm ∈ {1, ...,N } abschätzen. Stellen wir u bezüglich der zuge-hörigen Eigenvektor-Basis dar, erhalten wir mit c1 ≔ 1/c und c2 ≔ c die Abschät-zung

c1 ‖u‖2 ≤ λmin(Hn ) ‖u‖2 ≤ uTHnu ≤ λmax (Hn )‖u‖2 ≤ c2 ‖u‖2

und damit die erste Richtung der Behauptung.Für die Rückrichtung existieren nach Voraussetzung Konstanten c1 > 0 und

c2 > 0 mitc1 ‖u‖2 ≤ uTHnu ≤ c2 ‖u‖2

für alle u ∈ RN und alle n ∈ N. Wählen wir für den Vektor u einen Eigenvektorder MatrixHn folgt unmittelbar

c1 ≤ λnm ≤ c2

und zusammen mit (24.3) die Behauptung.Die Äquivalenz von (i) und (iii) können wir vollkommen analog beweisen. �

Beweis von Korollar 24.6. Aufgrund von Lemma 24.7 existiert eine Konstantec1 > 0, so dass die Spektralnorm der invertierten Matrixfolge durch ‖H−1

n ‖ ≤ c1für alle n ∈ N beschränkt ist. Damit erhalten wir für die Suchrichtung sn =

−H−1n ∇f (xn ) Bedingung (i) aus Korollar 24.5 mit p1 = 1. Des Weiteren existiert

nach Lemma 24.7 eine Konstante c2 > 0 mit

∇f (xn ) • sn = −∇f (xn )TH−1n ∇f (xn ) ≤ −c2 ‖∇f (xn)‖2

für alle n ∈ N. Somit ist auch Bedingung (ii) aus Korollar 24.6 mit p2 = 2 erfüllt.�

Mit der Wahl sn = −H−1n ∇f (xn) wird Algorithmus 24.1 gelegentlich auch

als ein Newton-ähnliches Verfahren bezeichnet. Hintergrund dieser Namens-



gebung ist, dass wir für den Spezialfall Hn ≔ Hf (xn), wobei Hf die zweite

Ableitung beziehungsweise die Hesse-Matrix bezeichnet, das klassische New-

ton-Verfahren erhalten.

25. Konvergenzraten

Vergleichen wir das relativ einfache Gradientenverfahren mit dengradientenähnlichen und Newton-ähnlichen Verfahren fällt auf, dass die

Berechnung der Suchrichtung bei letzteren wesentlich aufwendiger ist. Bei denNewton-ähnlichenVerfahrenmuss beispielsweise in jedem Iterationsschritt einlinearesGleichungssystemgelöstwerden. Umdiesen erhöhtennumerischenAuf-wand in der Praxis zu rechtfertigen, sollten dieseAlgorithmenwesentlich schnel-ler als das einfache Gradientenverfahren konvergieren, wobei sich die Fragestellt, wie wir die Konvergenzgeschwindigkeit messen können. Die nachfolgen-den Konvergenzraten basieren auf demQuotientenkriterium für Folgen, weshalbdiese auch als q-Konvergenz bezeichnet werden. Analog kann man die entspre-chenden Konvergenzraten ebenfalls über das Wurzelkriterium de�nieren. Ge-wöhnlich werden diese Raten als r-Konvergenz bezeichnet.

Definition 25.1 (Konvergenzraten). Sei (xn )n∈N eine konvergierte Folge inRN mit Grenzwert x∗. Die Konvergenz ist

(i) linear, falls ein c ∈ (0, 1) existiert mit

‖xn+1 − x∗‖ ≤ c ‖xn − x∗‖

(ii) superlinear, falls es eine Nullfolge (ϵn )n∈N existiert, mit

‖xn+1 − x∗‖ ≤ ϵn ‖xn − x∗‖

(iii) quadratisch, falls ein c > 0 existiert mit

‖xn+1 − x∗‖ ≤ c ‖xn − x∗‖2

für alle hinreichend großen n ∈ N.


25. Konvergenzraten 127

Bemerkung 25.2. Aus der linearen und superlinearen Konvergenz folgt insbe-sondere die Konvergenz der Folge (xn )n∈N. Bei der quadratischen Konvergenzmuss diese zusätzlich vorausgesetzt werden. �

Die letzten Bedingungen zur superlinearen und quadratischen Konvergenzkönnen auch it Hilfe der Landau-Symbole de�niert werden. Die betrachtete Fol-ge (xn )n∈N konvergiert genau dann superlinear, wenn

‖xn+1 − x∗‖ = o(‖xn − x∗‖).

Sind zusätzlich alle Folgenglieder vom Grenzwert verschieden, gilt also xn , x∗

für alle n ∈ N, dann ist die Landau-Notation äquivalent zu

limn→∞

‖xn+1 − x∗‖‖xn − x∗‖ = 0.

Vollkommen analog konvergiert die Folge (xn )n∈N genaudann quadratisch,wenn

‖xn+1 − x∗‖ = O(‖xn − x∗‖).

Unterscheiden sich die Folgenglieder vom Grenzwert, ist dies äquivalent zu

lim supn→∞

‖xn+1 − x∗‖‖xn − x∗‖2

< ∞.

Wie bereits erwähnt, basieren die unterschiedlichen De�nitionen der q-Kon-vergenzraten auf demQuotientenkriterium, bei welchem die Abstände zwischenxn und xn+1 zum Grenzwert x∗ verglichen werden. In der Anwendung ist derGrenzwert im Allgemeinen allerdings nicht bekannt, so dass wir nicht in derLage sind zu entscheiden, ob ein implementierter Algorithmus eine bestimmteKonvergenzrate aufweist. Ein weitere o�ene Frage ist, ab welcher Iteration wireine hinreichend gute Approximation des Grenzwertes erreicht haben.Wenn dieFolge jedoch mindestens superlinear konvergiert, dann haben ‖xn+1 − xn ‖ und‖xn − x∗ ‖ asymptotisch das gleiche Verhalten.

Lemma 25.3 (Asymptotisches Verhalten bei superlinearer Konvergenz).Konvergiert die Folge (xn )n∈N superlinear gegen x∗ ∈ R und gilt zusätzlich xn ,



x∗ für alle n ∈ N, dann gilt

limn→∞

‖xn+1 − xn‖‖xn − x∗‖ = 1.

Beweis. Mit Hilfe der umgekehrten Dreiecksungleichung folgt unmittelbar

limn→∞

��‖xn+1 − xn‖‖xn − x∗‖

− 1�� = lim

n→∞

��‖xn+1 − xn‖ − ‖xn − x∗‖

‖xn − x∗‖��

≤ limn→∞

‖xn+1 − x∗‖‖xn − x∗‖ = 0. �

Basieren auf dieser Beobachtung können wir für superlinear konvergieren-de Algorithmen die „optimale Abbruchsbedingung“ ‖xn − x∗‖ ≤ ϵ durch dieüberprüfbare Bedingung ‖xn−1 − x∗‖ ≤ ϵ ersetzen. Der einzige Haken an die-ser Idee ist, dass wir im Vorfeld normalerweise nicht wissen, ob die erzeugteFolge superlinear konvergieren wird. Für zweimal stetig di�erenzierbare Funk-tionen lässt sich allerdings eine Vergleichbare Beobachtung unter Verwendungdes Gradienten herleiten.

Lemma 25.4 (Abbruchkriterium). Die Funktion f : RN → R sei zweimal ste-tig di�erenzierbar. Weiter sei die Hesse-MatrixHf (x

∗) des stationären Punktes x∗

invertierbar. Für jede Folge (xn )n∈N mit xn → x∗ existiert dann eine Konstanteβ > 0 mit

‖∇f (xn )‖ ≥ β ‖xn − x∗‖

für alle hinreichend großen n ∈ N.

Beweis. Aus der Konvergenz xn → x∗ und der De�nition der mehrdimensio-nalen Ableitung folgt, dass es zu jedem ϵ > 0 ein n0 ∈ N existiert mit

‖∇f (xn) − ∇f (x∗) −Hf (x∗)(xn − x∗)‖ ≤ ϵ ‖xn − x∗‖

für alle n ≥ n0. Wählen wir ϵ < ‖H−1f(x∗)‖−1, dann folgt mit der umgekehrten

Dreiecksungleichung

‖∇f (xn)‖ ≥ ��‖Hf (x∗)(xn − x∗)‖ − ‖∇f (xn) − ∇f (x∗) −Hf (x

∗)(xn − x∗)‖��≥ ‖H−1

f (x∗)‖−1 ‖xn − x∗‖ − ϵ ‖xn − x∗‖ = β ‖xn − x∗‖



mit β ≔ ‖H−1f(x∗)‖−1 − ϵ . Nach der Wahl von ϵ muss β positiv sein, womit die

Behauptung folgt. �

Wenn die zu minimierende Funktion f zweimal stetig di�erenzierbar ist, kön-nen wir somit das „ideale Abbruchkriterium“ ∇f (xn ) = 0 durch die numerischsinnvollere Bedingung ‖∇f (xn)‖ ≤ ϵ ersetzen. Basieren auf Lemma 25.4 erhal-ten wir unter der Annahme, dass die generierte Folge (xn )n∈N konvergiert, füreine hinreichend große Anzahl an Iterationen bereits eine gute Näherung desstationären Punktes x∗.

Im verbleibenden Teil dieses Abschnittes werden wir über eine Reihe vonLemmata äquivalente Bedingungen für superlineare und quadratische Konver-genz herleiten und schlussendlich zeigen, dass dieNewton-ähnlichenVerfahrenbeziehungsweise die gradientenähnlichen Verfahrenmit der Suchrichtungswahlsn ≔ −Hn∇f (xn ) superlinear konvergieren. Als Vorbereitung werden wir zu-nächst zeigen, dass sich die Invertierbarkeit und die positive De�nitheit derHes-se-Matrix für einen gegebenen Punkt auf eine kleine Umgebung fortsetzen lässt.

Lemma 25.5. Sei M ∈ RN×N eine Matrix mit ‖M‖ < 1. Dann ist die MatrixI −M ebenfalls regulär und die Norm der Inversen ist beschränkt durch

‖ (I −M )−1‖ ≤ 1

1 − ‖M ‖.

Beweis. Für jedesx ∈ RN gilt aufgrund der umgekehrtenDreiecksungleichung

‖ (I −M ) x‖ ≥ ‖x‖ − ‖Mx‖ ≥ (1 − ‖M ‖) ‖x ‖. (25.1)

Nach Voraussetzung ist (1− ‖M ‖) > 0, so dass die Norm ‖ (I−M ) x‖ für x , 0

nicht verschwinden kann. Daher muss der Kern der Matrix I −M trivial sein,woraus bereits die Regularität der Matrix I −M folgt. Ersetzen wir x in derUngleichung (25.1) durch x = (I −M )−1y, erhalten wir

‖y‖ ≥ (1 − ‖M ‖) ‖ (I −M )−1 y‖

oder1

1 − ‖M ‖ ≥‖ (I −M )−1y‖

‖y‖

für alle y , 0. Bilden wir das Supremum über alle y wird die rechte Seite zurNorm der Inversen, womit wir die Behauptung gezeigt haben. �



Lemma 25.6 (Banach-Lemma). Seien A,B ∈ RN×N zwei Matrizen mit ‖I −BA ‖ < 1. Dann sind A undB regulär und es gilt die Abschätzung

‖B−1‖ ≤ ‖A‖1 − ‖I −BA‖ .

Beweis. NachVoraussetzung ist die Norm derMatrixM ≔ I−BA beschränktdurch ‖M ‖ < 1. Aufgrund von Lemma 25.5 ist somit I −M = BA regulär, wassich mittels des Determinanten-Multiplikationssatz auf die beiden Faktoren A

und B übertragt. Die Abschätzung für die Norm der inversen Matrix B−1 =(I −M )−1A folgt aus Lemma 25.5 durch

‖B−1‖ ≤ ‖ (I −M )−1‖ ‖A‖ ≤ ‖A‖1 − ‖M ‖

=

‖A‖1 − ‖I −BA‖

�

Lemma 25.7 (Fortsetzung der Invertierbarkeit). Die Funktion f : RN → Rsei zweimal stetig di�erenzierbare. Ist die Hesse-MatrixHf (x

∗) für einen gegebe-nen Punkt x∗ ∈ RN invertierbar, dann existierten Konstanten δ > 0 und c > 0

mit‖H−1

f (x)‖ ≤ c

für alle x ∈ Bδ (x∗). Insbesondere ist die Hesse-MatrixHf (x) invertierbar für allex ∈ Bδ (x∗).

Beweis. Weil dieHesse-MatrixHf (·) als Funktion aufRN nach Voraussetzungstetig ist, �nden wir aufgrund des Delta-Epsilon-Kriteriums ein δ > 0 mit

‖Hf (x∗) −Hf (x)‖ ≤ 1

2 ‖H−1f (x∗)‖−1

ϵ

für alle x ∈ Bδ (x∗). Des Weiteren erhalten wir für diese x die Abschätzung

‖I −H−1f (x∗)Hf (x)‖ ≤ ‖H−1

f (x∗)‖ ‖Hf (x∗) −Hf (x)‖ ≤ 1

2 < 1.

Nach Lemma 25.6 istHf (x) für alle x ∈ Bδ (x∗) regulär und es gilt

‖H−1f (x)‖ ≤

‖H−1f(x∗)‖

1 − ‖I −H−1f(x∗)Hf (x)‖

≤ 2 ‖H−1f (x∗)‖ ≕ c . �



Lemma 25.8 (Gleichmäßige positive Definitheit). Die Funktion f : RN →R sei zweimal stetig di�erenzierbare. Ist die Hesse-Matrix Hf (x

∗) für den gege-benen Punkt x∗ ∈ RN positiv de�nit, dann existieren Konstanten δ > 0 und µ > 0

mitdTHf (x)d ≥ µ ‖d‖2

für alle x ∈ Bδ (x∗) und d ∈ RN .

Beweis. Sollte die Behauptung falsch sein, �nden wir zwei Folgen (xn)n∈N und(dn )n∈N mitxn → x∗ und ‖dn‖ = 1, so dass der Term auf der linken Seite beliebigklein wird. Genauer können wir die Folgen so konstruieren, dass

(dn)THf (xn)dn < 1

n

für alle n ∈ N gilt. Aufgrund der Beschränktheit von (dn )n∈N, gibt es eine kon-vergente Teilfolge (dk )k∈N mit dk → d∗ und ‖d∗ ‖ = 1. Für diese Teilfolgenerhalten wir nun durch Grenzübergang

limk→∞

(dk )THf (xk )dk = (d∗)THf (x

∗)d∗ ≤ 0,

was allerdings der positiven De�nitheit von Hf (x∗) widersprecht. �

Um geeignete äquivalente Formulierungen für die superlineare und quadrati-sche Konvergenz angeben zu können, benötigen wir noch zwei weitere techni-sche Lemmata.

Lemma 25.9. Die Funktion f : RN → R sei zweimal stetig di�erenzierbare unddie Folge (xn)n∈N konvergiere nach x∗ ∈ RN . Dann gilt

limn→∞

1∫

0

‖Hf (xn+ t (xn+1 − xn )) −Hf (x

∗)‖ dt = 0

sowie

limn→∞

1∫

0

‖Hf (x∗+ t (xn − x∗)) −Hf (x

∗)‖ dt = 0.



Beweis. Da die Folge (xn )n∈N konvergiert, �nden wir für jedes δ > 0 ein n0, sodass

‖xn − x∗ ‖ ≤ δ2 und ‖xn − xn+1‖ ≤ δ

2

für alle n ≥ n0. Basierend auf diesen Abschätzungen erhalten wir

‖xn + t (xn+1 − xn ) − x∗‖ ≤ ‖xn − x∗‖ + t ‖xn+1 − xn‖ ≤ δ2 + t

δ2 < δ

für alle n ≥ n0 und für alle t ∈ [0, 1]. Die Folge

xn + t (xn − xn+1) → x∗

konvergiert also gleichmäßig unabhängig vom Parameter t .

Aufgrund dieser gleichmäßigenKonvergenz und der Stetigkeit derHesse-Ma-trix Hf (·) als Funktion auf RN �nden wir für jedes gegebene ϵ > 0 ein n0 ∈ Nmit

‖Hf (xn+ t (xn+1 − xn )) −Hf (x

∗)‖ ≤ ϵ

für alle n ≥ n0 unabhängig von t . Für das Integral erhalten wir damit

1∫

0

‖H f (xn+ t (xn+1 − xn )) −Hf (x

∗)‖ dt ≤1∫

0

ϵ dt = ϵ,

wobei wir nur hinreichend große n ≥ n0 betrachten. Weil wir ϵ > 0 beliebigklein wählen können, folgt die erste Behauptung. Die zweite Aussage kann voll-kommen analog gezeigt werden. �

Lemma 25.10. Die Funktion f : RN → R sei zweimal stetig di�erenzierbare unddie Folge (xn )n∈N konvergiere gegen x∗. Dann gilt

‖∇f (xn ) − ∇f (x∗) −Hf (xn)(xn − x∗)‖ = o(‖xn − x∗‖).

Wenn die zweite AbleitungHf (·) zusätzlich lokal Lipschitz-stetig ist, dann gilt

‖∇f (xn) − ∇f (x∗) −Hf (xn )(xn − x∗)‖ = O(‖xn − x∗‖2).



Beweis. Aus der De�nition der Ableitung für ∇f folgt die Existenz einer Null-folge (ϵn )n∈N, so dass

‖∇f (xn ) − ∇f (x∗) −Hf (x∗)(xn − x∗)‖ ≤ ϵn ‖xn − x∗‖

für alle n ∈ N. Aus der Stetigkeit der zweiten Ableitung folgt, dass die Folge(ηn )n∈N gegeben durch

ηn ≔ ‖Hf (xn ) −Hf (x

∗)‖

nach null konvergiert. Aus diesen beiden Beobachtungen erhalten wir nun

‖∇f (xn) − ∇f (x∗) −Hf (xn )(xn − x∗)‖

≤ ‖∇f (xn ) − ∇f (x∗) −Hf (x∗)(xn − x∗)‖

+ ‖Hf (xn) −Hf (x

∗)‖ ‖xn − x∗‖

≤ (ϵn + ηn ) ‖xn − x∗‖

für alle n ∈ N, woraus bereits die erste Behauptung folgt.

Unter Verwendung des Mittelwertsatzes für vektorwertige Funktionen

д(x + h) − д(x) =1∫

0

Jд (x + th)h dt ,

wobei д eine Funktion von RN nach RN und Jд die Jacobi-Matrix beziehungs-weise die erste Ableitung von д bezeichnet, folgt

∇f (xn) − ∇f (x∗) −Hf (xn )(xn − x∗)

=

1∫

0

Hf (x∗+ t (xn − x∗)) (xn − x∗) dt −Hf (x

n)(xn − x∗)

=

1∫

0

(

Hf (x∗+ t (xn − x∗)) −Hf (x

n))

(xn − x∗) dt .

Ähnlich zum Beweis von Lemma 25.9 konvergiert die Folge x∗ + t (xn − x∗)gleichmäßig gegen x∗ bezüglich des Parameters t . Zusammen mit der Dreiecks-ungleichung für vektorwertige Integrale und der lokalen Lipschitz-Stetigkeit



erhalten wir

‖∇f (xn) − ∇f (x∗) −Hf (xn )(xn − x∗)‖

≤1∫

0

‖Hf (x∗+ t (xn − x∗)) −Hf (x

n )‖ ‖xn − x∗‖ dt

≤1∫

0

L |t − 1| ‖xn − x∗‖2 dt = L2 ‖x

n − x∗‖2

für alle hinreichend großen n ∈ N, wobei L die lokale Lipschitz-Konstante aufeiner hinreichend kleinen Umgebung um x∗ bezeichnet. �

Nach diesen vorbereitenden Überlegungen sind wir nun schließlich in der La-ge eine äquivalente Bedingung für die superlineare Konvergenz herzuleiten.

Satz 25.11 (SuperlineareKonvergenz). Die Funktion f : RN → R sei zweimalstetig di�erenzierbar. Ist die Hesse-Matrix Hf (x

∗) für den gegebenen Punkt x∗ ∈RN invertierbar, dann sind für jede gegen x∗ konvergente Folge (xn )n∈N mit xn ,

x∗ die folgenden Aussagen äquivalent:

(i) (xn )n∈N konvergiert superlinear gegen x∗ und ∇f (x∗) = 0.

(ii) ‖∇f (xn ) +Hf (xn )(xn+1 − xn )‖ = o(‖xn+1 − xn‖).

(iii) ‖∇f (xn ) +Hf (x∗)(xn+1 − xn )‖ = o(‖xn+1 − xn‖).

Beweis. Wir zeigen zunächst die Implikation von (iii) nach (i). Mit Hilfe desMittelwertsatzes für vektorwertige Funktionen erhalten wir

∇f (xn+1) = ∇f (xn+1) − ∇f (xn ) −Hf (x∗)(xn+1 − xn )

+ ∇f (xn ) +Hf (x∗)(xn+1 − xn )

=

1∫

0

(

Hf (xn+ t (xn+1 − xn )) −Hf (x

∗))

(xn+1 − x∗) dt

+ ∇f (xn ) +Hf (x∗)(xn+1 − xn )

(25.2)



und mit Hilfe der Dreiecksungleichung

‖∇f (xn+1)‖ ≤1∫

0

‖Hf (xn+ t (xn+1 − xn )) −Hf (x

∗)‖ dt ‖xn+1 − xn‖

+ ‖∇f (xn ) +Hf (x∗)(xn+1 − xn )‖

Wenden wir auf die beiden Summanden auf der rechten Seite Lemma 25.9 undBedingung (iii) an, folgt die Existenz einer Nullfolge (ϵn )n∈N mit

‖∇f (xn+1)‖ ≤ ϵn ‖xn+1 − xn‖. (25.3)

Lassen wir n gegen unendlich streben, folgt aus

∇f (x∗) = limn→∞∇f (xn ) = 0,

dass x∗ ein stationärer Punkt ist.

Nach Lemma 25.4 gibt es jetzt ein β > 0 mit

‖∇f (xn+1)‖ ≥ β ‖xn+1 − x∗‖

für alle hinreichend großen n ∈ N. Zusammen mit (25.3) erhalten wir die Ab-schätzung

β ‖xn+1 − x∗‖ ≤ ϵn ‖xn+1 − xn‖ ≤ ϵn(

‖xn+1 − x∗‖ + ‖xn − x∗‖)

und somit‖xn+1 − x∗‖ ≤ ϵn

β − ϵn‖xn − x∗‖

für alle hinreichend großen n ∈ N. Da ϵn/(β−ϵn ) ebenfalls eine Nullfolge ist, kon-vergiert (xn )n∈N superlinear gegen x∗.

Für die Rückrichtung sortieren wir die Terme in (25.2) um und verwendenwieder die Dreiecksungleichung, was uns die Abschätzung

‖∇f (xn ) +Hf (x∗)(xn+1 − xn )‖

≤ ‖∇f (xn+1)‖ +1∫

0

‖Hf (xn+ t (xn+1 − xn )) −Hf (x

∗)‖ dt ‖xn+1 − xn‖

(25.4)liefert. Nach Lemma 25.9 ist das Integral im zweiten Summanden eine bereits



Nullfolge und wir müssen nur noch den ersten Summanden geeignet abschät-zen. Als Folgerung des Satzes von Weierstrass nimmt die stetige Funktionx 7→ ‖Hf (x)‖ ihr Maximum M auf jedem kompakten Ball Bϵ (x∗) an, womitfür hinreichend große n ∈ N die Ungleichung

‖∇f (xn+1) − ∇f (x∗)‖ ≤1∫

0

‖Hf (x∗+ t (xn+1 − x∗))‖ dt ‖xn+1 − x∗‖

≤ M ‖xn+1 − x∗‖

erfüllt wird. Aufgrund der Voraussetzung ∇f (x∗) = 0 gilt somit

‖∇f (xn+1) ‖ ≤ M ‖xn+1 − x∗ ‖‖xn − x∗ ‖

‖xn − x∗ ‖‖xn+1 − xn ‖

‖xn+1 − xn ‖.

Wegen der superlinearenKonvergenz geht der erste Bruch gegen null undwegenLemma 25.3 der zweite Bruch gegen eins. Insgesamt folgt aus (25.4) damit dieBehauptung.

Die Äquivalenz zwischen (ii) und (iii) lässt sich relativ einfachwiedermit Hilfeder Dreiecksungleichung zeigen. Unter der Annahme, dass Bedingung (ii) erfülltist, können wir die Existenz einer Nullfolge (ϵn )n∈N mit

‖∇f (xn ) +Hf (x∗)(xn+1 − xn )‖

≤ ‖∇f (xn ) +Hf (xn )(xn+1 − xn )‖ + ‖Hf (x

n ) −Hf (x∗)‖ ‖xn+1 − xn‖

≤ (ϵn + ‖Hf (xn ) −Hf (x

n )‖)‖xn+1 − xn‖

folgern. Aufgrund der Stetigkeit der zweitenAbleitung ist ϵn+‖Hf (xn )−Hf (x

∗)‖ebenfalls eine Nullfolge und wir erhalten Bedingung (iii). Die Rückrichtung lässtsich vollkommen analog argumentieren. �

Die äquivalenten Konvergenzbedingungen aus Satz 25.11 liefern die Grundlagefür die superlineare Konvergenz der Newton-ähnlichen Verfahren, also von Al-gorithmus 24.1 mit der Suchrichtungswahl sn = −H−1

n ∇f (xn ). Aufgrund der Re-levanz mit Hinblick auf die (Quasi-)Newton-Verfahren wurde die entsprechen-de Charakterisierung nach John E. Dennis und Jorge J. Moré benannt, welchediese erstmals nachgewiesen haben.



Korollar 25.12 (Dennis-Moré-Bedingung). Die Funktion f : RN → R seizweimal stetig di�erenzierbar und die Folge (Hn )n∈N bestehe aus regulären Ma-trizen. Ist die Hesse-Matrix Hf (x

∗) für den Grenzwert x∗ ∈ RN der von Algo-rithmus 24.1 mit sn ≔ −H−1

n ∇f (xn) erzeugten Folge (xn )n∈N invertierbar und istxn , x∗ für alle n ∈ N, dann sind folgende Aussagen äquivalent:

(i) (xn )n∈N konvergiert superlinear gegen x∗ und ∇f (x∗) = 0.

(ii) ‖ (σ−1n Hn −Hf (xn ))(xn+1 − xn )‖ = o(‖xn+1 − xn‖).

(iii) ‖ (σ−1n Hn −Hf (x∗))(xn+1 − xn )‖ = o(‖xn+1 − xn‖).

Beweis. Aus der Wahl der Suchrichtungen erhalten wir die Identität

∇f (xn) = 1σn

Hn (xn+1 − xn ),

womit die Behauptung unmittelbar aus Satz 25.11 folgt. �

Betrachten wir die Dennis-Moré-Bedingung genauer, konvergiert Algorith-mus 24.1 mit der Suchrichtungswahl sn ≔ −H−1

f(xn )∇f (xn ) und der Schritt-

weitenwahl σn ≔ 1 immer superlinear, sofern die erzeugte Folge gegen einenGrenzwert strebt. Allgemeiner müssen die Matrixen σ−1n Hn die Hesse-MatrizenHf (x

n) in Richtung (xn+1 − xn ) nur hinreichend gut approximieren, um diesuperlineare Konvergenz zu sichern.

Vergleichbare Konvergenzbedingungen lassen sich ebenfalls für die quadrati-sche Konvergenz einer Folge herleiten.

Satz 25.13 (�adratische Konvergenz). Die Funktion f : RN → R sei zwei-mal stetig di�erenzierbar mit lokal Lipschitz-stetiger zweiten Ableitung. Ist dieHesse-Matrix Hf (x

∗) für den gegebenen Punkt x∗ ∈ RN invertierbar, dann sindfür jede gegen x∗ konvergente Folge (xn )n∈N mit xn , x∗ die folgende Aussagenäquivalent:

(i) (xn )n∈N konvergiert quadratisch gegen x∗ und ∇f (x∗) = 0.

(ii) ‖∇f (xn) +Hf (xn )(xn+1 − xn )‖ = O(‖xn+1 − xn‖2).

(iii) ‖∇f (xn) +Hf (x∗)(xn+1 − xn )‖ = O(‖xn+1 − xn‖2).

Beweis. Wir beginnen mit der Implikation von (ii) nach (i). Hierfür nutzen wirzunächst aus, dass mit Bedingung (ii) die etwas schwächere zweite Bedingung



von Satz 25.11 ebenfalls erfüllt ist. Somit muss die Folge (xn)n∈N mindestens su-perlinear gegen den stationären Grenzwert x∗ konvergieren. Da nach Voraus-setzung die Hesse-Matrix Hf (x

∗) invertierbar ist und (xn)n∈N gegen x∗ kon-vergiert, folgt aus Lemma 25.7 die Existenz einer Konstanten c > 0, so dass dieUngleichung

‖xn+1 − x∗‖ ≤ ‖H−1f (xn )‖ ‖Hf (x

n )(xn+1 − x∗)‖ ≤ c ‖Hf (xn)(xn+1 − x∗)‖

und durch Erweitern mit ±xn und ±∇f (xn ) die Ungleichung

‖xn+1 − x∗‖‖xn − x∗‖2

≤ c( ‖∇f (xn ) +Hf (x

n )(xn+1 − xn )‖‖xn+1 − xn‖2

‖xn+1 − xn‖2

‖xn − x∗‖2

+

‖∇f (xn ) − ∇f (x∗) −Hf (xn )(xn − x∗)‖

‖xn − x∗‖2

)

für alle hinreichend großen n ∈ N erfüllt sind. Nach Voraussetzung (ii) undLemma 25.3 ist der erste Summand und nach Lemma 25.10 der zweite Summandbeschränkt, womit wir die quadratische Konvergenz der Folge (xn )n∈N gezeigthaben.

Für die Rückrichtung von (i) nach (ii) betrachten wir die Abschätzung

‖∇f (xn ) +Hf (xn )(xn+1 − x∗)‖

‖xn+1 − xn‖2

≤‖∇f (xn) − ∇f (x∗) −Hf (x

n )(xn − x∗)‖‖xn − x∗‖2

‖xn − x∗‖2

‖xn+1 − xn‖2

+ ‖Hf (xn)‖ ‖x

n+1 − xn‖‖xn − x∗‖2

‖xn − x∗‖2

‖xn+1 − xn‖2 .

Der erste Summand ist nach Lemma 25.10 und 25.3 beschränkt. Die Beschränkt-heit des zweite Summanden folgt aus der quadratischen Konvergenz, der Stetig-keit der zweiten Ableitung Hf (·) und ebenfalls aus Lemma 25.3.

Für die Implikation von (ii) nach (iii) verwenden wir die Dreiecksungleichungund die lokale Lipschitz-Stetigkeit der zweiten Ableitung, womit wir für allehinreichend großen n ∈ N die Abschätzung

‖∇f (xn) +Hf (x∗)(xn+1 − xn )‖

‖xn+1 − xn‖2≤‖∇f (xn ) +Hf (x

n )(xn+1 − xn )‖‖xn+1 − xn‖2

+

‖Hf (xn ) −Hf (x

∗)‖ ‖xn+1 − xn‖‖xn+1 − xn‖2



≤‖∇f (xn ) +Hf (x

n )(xn+1 − xn )‖‖xn+1 − xn‖2

+ L‖xn+1 − x∗‖‖xn+1 − xn‖

erhalten. Nach Voraussetzung (ii) ist der erste Summand und nach Lemma 25.3der zweite Summand beschränkt, womit wir Bedingung (iii) erhalten. Die ver-bleibende Richtung von (iii) nach (ii) kann vollkommen analog bewiesenwerden.

�


Kapitel VIII.

Newton-artige Lösungsverfahren

26. Das lokale Newton-Verfahren

Zentrale Idee hinter dem Newton-Verfahren zur Bestimmung einesMi-nimierers der Zielfunktion f ist die Minimierung einer geeigneten Ap-

proximation niedriger Ordnung. Genauer betrachten wir ausgehend von einemStartwert x0 die quadratischen Näherungen

qn (x) ≔ f (xn ) + ∇f (xn)(x − xn ) + 12 (x − x

n )THf (xn )(x − xn ).

Ist die Hesse-MatrixHf (xn ) positiv de�nit, dann besitzt die strikt konvexe Ap-

proximation qn einen eindeutigen Minimier, welchen wir durch Nullsetzen derersten Ableitung

∇qn (x) = ∇f (xn ) +Hf (xn )(x − xn) !

= 0

bestimmen können, vergleiche Satz 20.5. Lösen wir diese Gleichung nach x auf,dann ist der Minimierer xn+1 durch

xn+1 = xn −H−1f (xn)∇f (xn )

beziehungsweise

xn+1 = xn + sn mit Hf (xn )sn = −∇f (xn )

gegeben. Ähnlich zu den Innere-Punkte-Verfahren wird die letzte Gleichung alsNewton-Gleichung bezeichnet. Insgesamthat dasNewton-VerfahrengroßeÄhn-lichkeit mit den Newton-ähnlichen Verfahren. Allerdings ist die Schrittweitebeim Newton-Verfahren immer eins und abhängig von der Hesse-Matrix mussdie Suchrichtung sn keine Abstiegsrichtung sein.


142 VIII. Newton-artige Lösungsverfahren

Algorithmus 26.1 (Lokales Newton-Verfahren).Voraussetzung: Startpunkt x0 ∈ RN .

(i) Wenn ∇f (xn ) = 0, dann beende den Algorithmus.

→ STOP

(ii) Berechne sn durch Hf (xn )sn = −∇f (xn ).

(iii) Setze xn+1 ≔ xn + sn.


Abhängig von der Zielfunktion konvergiert das Newton-Verfahren mindes-tens superlinear oder sogar quadratisch. Weil die Hesse-Matrix allerdings nichtüberall invertierbar sein muss, ist das Verfahren nicht überall wohlde�niert, sodass die Konvergenz nur lokal ist.

Satz 26.2 (Lokale Konvergenz). Die Funktion f : RN → R sei zweimal ste-tig di�erenzierbar und x∗ ∈ RN sei ein stationärer Punkt mit invertierbarerHesse-MatrixHf (x

∗). Dann existiert ein ϵ > 0, so dass Algorithmus 26.1 für alle Startwer-te x∗ ∈ Bϵ (x∗) superlinear gegen x∗ konvergiert. Wenn die zweite Ableitung Hf

zusätzlich lokal Lipschitz-stetig ist, konvergiert Algorithmus 26.1 überdies quadra-tisch.

Beweis. Wir zeigen zunächst, dass Algorithmus 26.1 auf einer hinreichend klei-nen Umgebung von x∗ wohlde�niert ist. Hierfür nutzen wir aus, dass nach Lem-ma 25.7 Konstanten η > 0 und c > 0 existieren mit

‖H−1f (x)‖ < c für alle x ∈ Bη (x∗),

wobei dieHesse-MatrixHf (x) insbesondere invertierbar für allex ∈ Bϵ (x∗) ist.Die Idee ist nun zu zeigen, dass die Folge (xn )n∈N den Ball Bη (x

∗) für geeigneteStartwerte x0 nicht verlassen kann.

Aus der De�nition der Di�erenzierbarkeit folgt hierfür die Existenz eines δ >0 mit

‖∇f (x ) −Hf (x)(x − x∗)‖ ≤ 12c ‖x − x

∗‖

für alle x ∈ Bδ (x∗). Wählen wir nun x0 ∈ Bϵ (x∗) mit ϵ ≔ min{δ ,η}, dann isteinerseits die Hesse-MatrixHf (x

∗) invertierbar und andererseits folgt

‖x1 − x∗‖ = ‖x0 −H−1f (x0)∇f (x0) − x∗‖

≤ ‖H−1f (x0)‖ ‖Hf (x

0)(x0 − x∗) − ∇f (x0)‖


27. Ein globalisiertes Newton-Verfahren 143

≤ c2c ‖x

0 − x∗‖ = 12 ‖x

0 − x∗‖ < ϵ .

Mittels Induktion erhalten wir für die folgenden Iterationen

‖xn − x∗‖ ≤ 12n ‖x

0 − x∗‖ < ϵ

für alle n ∈ N. Somit sind die Hesse-Matrizen Hf (xn) für die erzeugte Folge

(xn )n∈N invertierbar und die Folge (xn )n∈N konvergiert gegen x∗. Aufgrund derIterationsvorschrift erhalten wir

∇f (xn ) +Hf (xn )(xn+1 − xn ) = 0,

womit die superlineare und quadratischeKonvergenz aus Satz 25.11 und Satz 25.13folgen. �

27. Ein globalisiertes Newton-Verfahren

Global ist das klassische Newton-Verfahren in Algorithmus 26.1 nichteinmal wohlde�niert, was eine direkte Anwendung für einige Zielfunk-

tionen erheblich erschwert. Eine mögliche Strategie zur Globalisierung ist dieAusführung eines Gradientenschrittes, der die Armijo-Bedingung erfüllt, wannimmer die Newton-Gleichung keine eindeutige Lösung besitzt oder keine Ab-stiegsrichtung liefert. Auf diese Weise können wir die globale Konvergenz desGradientenverfahrensmit der höheren Konvergenzrate desNewton-Verfahrenskombinieren.

Algorithmus 27.1 (Globalisiertes Newton-Verfahren).Voraussetzungen:

• Startpunkt x0 ∈ RN ,

• Parameter ρ > 0, p > 2, β ∈ (0, 1) und γ ∈(

0, 12

)

.

(i) Wenn ∇f (xn ) = 0, dann beende den Algorithmus.

→ STOP

(ii) Finde eine Lösung xn der Newton-Gleichung

Hf (xn)sn = −∇f (xn).



Ist dieses System nicht lösbar oder die Bedingung

∇f (xn ) • sn ≤ −ρ ‖sn‖p

nicht erfüllt, so setze sn ≔ −∇f (xn ).(iii) Bestimme eine Armijo-Schri�weite σn ≔ max{βℓ : ℓ = 0, 1, 2, . . . } mit

f (xn + βℓsn ) ≤ f (xn ) + γ βℓ ∇f (xn ) • sn .

(iv) Setze xn+1 ≔ xn + σn sn und n ≔ n + 1.


Bevor wir die Konvergenzraten des globalisierten Newton-Verfahrens unter-suchen, zeigen wir, dass Algorithmus 27.1 in Ähnlichkeit zum Gradientenverfah-ren global konvergiert.

Satz 27.2 (Globale Konvergenz). Die Funktion f : RN → R sei zweimal stetigdi�erenzierbar. Dann bricht Algorithmus 27.1 entweder nach endlich vielen Schrit-ten ab oder, wenn die Folge (xn )n∈N beschränkt ist, dann ist jeder Häufungspunktvon (xn)n∈N stationär.

Beweis. Da im ersten Fall nichts zu zeigen ist, setzen wir für den Beweis, dassder Gradient ∇f (xn ) für alle n ∈ N nicht verschwindet. Die Idee ist zu zeigen,dass Suchrichtungen und die Schrittweiten zulässig sind. Hierfür de�nieren wirdie Indexmengen

NG ≔ {n ∈ N : sn = −∇f (xn )}und

NN ≔ {n ∈ N : sn = −H−1f (xn )∇f (xn )}.

Wegen ∇f (xn ) sowie sn , 0 erhalten wir

−∇f (xn) • sn

‖sn‖ = ‖∇f (xn)‖ > 0 für n ∈ NG (27.1)

und

−∇f (xn) • sn

‖sn‖ ≥ ρ‖sn‖p−1 > 0 für n ∈ NN, (27.2)

womit sn immer eine Abstiegsrichtung ist.



Für die Zulässigkeit der Suchrichtungen setzen wir nun

limn→∞

∇f (xn) • sn

‖sn‖ = 0

voraus. Für die Gradientenschritte n ∈ NG folgt aus (27.1) direkt ‖∇f (xn )‖ →0. Für die Newton-Schritte nutzen wir die Beschränktheit der Folge (xn)n∈N ,womit es eine Konstante c > 0 mit ‖Hf (x

n )‖ ≤ c für alle n ∈ NN gibt. Für dieNorm des Gradienten erhalten wir nun

‖∇f (xn)‖p−1 = ‖Hf (xn)sn‖p−1 ≤ (c‖sn‖)p−1 ≤ cp−1

ρ

−∇f (xn ) • sn

‖sn‖→ 0

für die Teilfolge n ∈ NN. Damit sind alle Suchrichtungen zulässig.

Für die Zulässigkeit der Schrittweiten nutzen wir die (Un-)Gleichungen

−∇f (xn) • sn

‖sn‖= ‖sn‖ für n ∈ NG

und1

c

−∇f (xn) • sn

‖sn‖≤ 1

c‖∇f (xn)‖ ≤ ‖sn‖ für n ∈ NN.

Insgesamt erhalten wir

‖sn‖ ≥ ϕ(

−∇f (xn) • sn

‖sn‖

)

mit ϕ : t 7→ min{t , c−1t } für alle n ∈ N. Weil ϕ o�ensichtlich stetig und strengmonoton wachsend ist, sind die Armijo-Schrittweiten nach Satz 22.3 zulässig.Die globale Konvergenz folgt nun aus Satz 21.5. �

Um zu zeigen, dass das globalisierte Verfahren irgendwann in das lokaleNew-

ton-Verfahren übergeht, muss die erzeugte Folge (xn )n∈N einerseits zu einemeindeutigen Punkt konvergieren und andererseits müssen die Schrittweiten σn =1 für hinreichend große n ∈ N akzeptiert werden.

Lemma 27.3 (Konvergenz der Gesamtfolge). Der Punkt x∗ ∈ RN sei einisolierter Häufungspunkt der Folge (xn )n∈N und es gelte ‖xk+1 − xk ‖ → 0 fürjede gegen x∗ konvergente Teilfolge (xk )k∈N. Dann konvergiert die gesamte Folge(xn )n∈N gegen x∗ und es existieren keine weiteren Häufungspunkte.



Beweis. Für jeden isolierten Häufungspunkt x∗ gibt es eine kleine Umgebungmit Radius ϵ > 0, so dass x∗ der einzige Häufungspunkt der Folge (xn )n∈N inBϵ (x∗) ist. Nehmen wir an, dass die Gesamtfolge (xn )n∈N nicht eindeutig gegenx∗ konvergiert, dann muss es eine Teilfolge (xk (n))n∈N mit

xk (n) ∈ Bϵ (x∗) und xk (n)+1 < Bϵ (x∗)

gegen. Die Indizes k (n) sind hierbei gerade jene Stellen der Folge (xn)n∈N , andenen die Folge den ϵ-Ball um x∗ verlässt.

Da die Teilfolge (xk (n))n∈N beschränkt ist, hat diese einen Häufungspunkt,welcher nach Voraussetzung nur der Häufungspunkt x∗ sein kann. Daher kön-nen wir folgern, dass die gesamte Teilfolge bereits mit xk (n) → x∗ konvergiert.Somit gibt es also ein n0 ∈ N mit

‖xk (n) − x∗‖ < ϵ

2

für alle n ≥ n0. Mit Hilfe der umgekehrten Dreiecksungleichung folgt außerdem

‖xk (n)+1 − xk (n)‖ ≥ ‖xk (n)+1 − x∗‖ − ‖xk (n) − x∗‖ ≥ ϵ2

für alle n ≥ n0, womit die Teilfolge ‖xk (n)+1 − xk (n)‖ 9 0 aber entgegen derVoraussetzung nicht nach null konvergieren kann. �

Lemma 27.4 (Armijo-Bedingung). Die Funktion f : RN → R sei zweimalstetig di�erenzierbar und x∗ ∈ RN sei ein stationärer Punkt mit invertierbarer undpositiv de�niter HessematrixHf (x

∗). Weiter konvergiere die Folge (xn )n∈N gegenx∗ und es gelte

xn+1 − xn = −H−1f (xn)∇f (xn ).

Dann wird für hinreichend große n ∈ N und γ ∈ (0, 1/2) die Armijo-Bedingung

f (xn+1) ≤ f (xn ) + γ ∇f (xn) • (xn+1 − xn )

erfüllt.

Beweis. Nach Lemma 25.7 und Lemma 25.8 �nden wir wieder Konstanten c > 0

und µ > 0 mit

‖H−1f (xn )‖ ≤ c und dTHf (x

n)d ≥ µ ‖d‖2



für hinreichend große n ∈ N. Der Satz von Taylor liefert nun für eine geeigneteZwischenstelle ξn = xn + θ (xn+1 − xn ) mit θ ∈ (0, 1) die Identität

f (xn+1) = f (xn ) + ∇f (xn ) • (xn+1 − xn ) + 12 (x

n+1 − xn)THf (ξn)(xn+1 − xn ).

Aus der Voraussetzung Hf (xn)(xn+1 − xn ) = −∇f (xn) und der gleichmäßigen

De�nitheit folgt aus der Taylor-Entwicklung

f (xn+1) − f (xn ) − γ ∇f (xn ) • (xn+1 − xn )

= (1 − γ ) ∇f (xn) • (xn+1 − xn ) + 12 (x

n+1 − xn )THf (ξn)(xn+1 − xn )

= −(1 − γ ) (xn+1 − xn )THf (xn)(xn+1 − xn )

+12 (x

n+1 − xn )THf (ξn)(xn+1 − xn )

≤ −( 12 − γ ) µ ‖xn+1 − xn‖2 + 1

2 ‖Hf (ξn ) −Hf (x

n )‖ ‖xn+1 − xn‖2

für n genügend groß. Für die Di�erenz zwischen den Folgengliedern gilt

‖xn+1 − xn‖ = ‖H−1f (xn )∇f (xn )‖ ≤ c‖∇f (xn)‖ → c‖∇f (x∗)‖ = 0,

woraus wir insbesondere ξn → x∗ folgern können. Aufgrund der Stetigkeit derzweiten Ableitung Hf (·) wird für hinreichend große n ∈ N irgendwann dieUngleichung

‖Hf (ξn) −Hf (x

n )‖ ≤ 2 ( 12 − γ ) µ

erfüllt. Wenn n also nur groß genug wird, erhalten wir

f (xn+1) − f (xn ) − γ ∇f (xn ) • (xn+1 − xn ) ≤ 0,

womit die Armijo-Bedingung erfüllt ist. �

Wir sind nun in der Lage, die superlineare und quadratische Konvergenz desglobalisierten Newton-Verfahrens zu zeigen.

Satz 27.5 (Superlineare Konvergenz). Die Funktion f : RN → R sei zweimalstetig di�erenzierbar und x∗ ∈ RN ein Häufungspunkt der von Algorithmus 27.1erzeugten Folge (xn )n∈N mit positiv de�niter Hesse-MatrixHf (x

∗). Wenn die Fol-ge (xn)n∈N zusätzlich beschränkt ist, dann ist x∗ ein strikt lokaler Minimierer und



(xn )n∈N konvergiert superlinear gegenx∗. Ist die zweite AbleitungHf (·) lokal Lip-schitz-stetig, dann konvergiert (xn )n∈N sogar quadratisch.

Beweis. Weil die erzeugte Folge (xn )n∈N nach Voraussetzung beschränkt ist,muss der Häufungspunkt x∗ stationär sein, siehe Satz 27.2. Wie im Beweis vonSatz 21.5 folgt aus der Monotonie der Funktionswerte f (xn )n∈N, dass jeder Häu-fungspunkt der Folge (xn )n∈N den Funktionswert f (x∗) besitzt. Wegen der posi-tiv de�niten Hesse-MatrixHf (x

∗) ist x∗ nach den hinreichenden Optimalitäts-bedingungen zweiter Ordnung (Satz 20.4) ein strikt lokaler Minimierer, womitx∗ ein isolierter Häufungspunkt sein muss.

Wie im Beweis von Lemma 27.4 gibt es ein c > 0 und ein µ > 0 mit

‖H−1f ‖ ≤ c und dTHf (x

n)d ≥ µ ‖d‖2

für hinreichend große n ∈ N. Damit folgt für die Gradientenschritte

‖xn+1 − xn‖ = σn‖sn‖ ≤ ‖∇f (xn )‖

und für die Newton-Schritte

‖xn+1 − xn‖ = σn‖sn‖ ≤ c‖∇f (xn)‖.

Insgesamt konvergiert also jede Teilfolge von (‖xn+1 −xn ‖)n∈N gegen null, wo-mit nach Lemma 27.3 die gesamte Folge (xn )n∈N gegen x∗ konvergiert.

Als nächstes zeigen wir, dass nach hinreichend vielen Iterationen die New-

ton-Schritte immer akzeptiert werden. Nach Lemma 25.7 sind die Hesse-Matri-zenHf (x

n ) für große n invertierbar, womit dieNewton-Gleichungen eindeutiglösbar sind. Für die Lösungen dn gilt insbesondere

‖dn‖ = ‖H−1f (xn)∇f (xn )‖ < c ‖∇f (xn)‖

und somit dn → 0. Des Weiteren folgt aus der De�nition der Newton-Schritte

−∇f (xn ) • dn = (dn )THf (xn )dn ≥ µ ‖dn‖2.

Weil die quadrierte Norm ‖ · ‖2 etwas langsamer gegen null fällt als ‖ · ‖p mitp > 2, erhalten wir

∇f (xn ) • dn ≤ −µ ‖dn‖2 ≤ −ρ ‖dn‖p,

womit die Lösung der Newton-Gleichung eine Abstiegsrichtung ist. Um die ge-machte Abschätzungmathematisch zu veri�zieren, stellen wir die rechte Unglei-


28. Quasi-Newton-Verfahren 149

chung nach1 ≥ ρ

µ ‖dn ‖p−2

um. Wegen dn → 0 ist diese äquivalente Ungleichung gültig, sobald n hinrei-chend groß ist. Insgesamt werden ab einer bestimmten Iteration die Newton-Schritte sn = dn immer akzeptiert. Nach Lemma 27.4 erfüllt σn = 1 irgendwanndie Armijo-Bedingung, womit das globalisierte Newton-Verfahren in das lo-kale Newton-Verfahren übergeht. Die Konvergenzraten folgen unmittelbar ausSatz 26.2. �

28. �asi-Newton-Verfahren

Häufig ist die explizite Berechnung derHesse-Matrix mit ihrenN 2 par-tiellen Ableitungen zur Lösung der Newton-Gleichungen mit erhebli-

chem Aufwand verbunden. Die Idee hinter dem Quasi-Newton-Verfahren istdie Verwendung einer geeigneten Approximation Hn von Hf (x

n) in jeder Ite-ration. Bei dem inversen Quasi-Newton-Verfahren wird zusätzlich die Lösungdes Gleichungssystems zur Bestimmung der Suchrichtung durch eine einfacheMatrix-Vektor-Multiplikation ersetzt, indem direkt eine Approximation der in-vertierten Hesse-MatrixH−1

f(xn ) bestimmt wird.

Für die Herleitung der Quasi-Newton-Verfahren machen wir im Folgendenden Ansatz

xn+1 = xn −H−1n ∇f (xn ),

wobei die Matrix Hn eine einfach zu berechnende Approximation der Hesse-Matrix H−1

f(xn ) ist. Dieser Ansatz ist vergleichbar mit der Iteration der New-

ton-ähnlichen Verfahren, wobei wir wie beim Newton-Verfahren die Schritt-weite eins verwenden.

Wenn wir die Approximationen Hn geeignet wählen, bleibt die superlinea-re Konvergenz des Newton-Verfahrens erhalten. Zum Beispiel folgt diese fürgeeignete Matrizen direkt aus der Dennis-Moré-Bedingung mit σn = 1 in Ko-rollar 25.12, also aus

‖ (Hf (xn ) −Hn )(x

n+1 − xn )‖ = o(‖xn+1 − xn‖). (28.1)

Um den Approximationsfehler in Richtung xn+1 − xn abzuschätzen, erweiternwir die Norm geeignet und verwenden die Dreiecksungleichung, was uns die



obere Schranke

‖ (Hf (xn) −Hn )(x

n+1 − xn)‖

≤ ‖∇f (xn+1) − ∇f (xn ) −Hn (xn+1 − xn )‖

+ ‖∇f (xn+1) − ∇f (xn) −Hf (xn )(xn+1 − xn )‖

liefert. Berücksichtigen wir, dass aus Lemma 25.10 und der Stetigkeit der Funk-tion x 7→Hf (x) die Abschätzung

‖∇f (xn+1) − ∇f (xn ) −Hf (xn )(xn+1 − xn )‖

≤ ‖∇f (xn+1) − ∇f (x∗) −Hf (x∗)(xn+1 − x∗)‖

+ ‖∇f (xn ) − ∇f (x∗) −Hf (x∗)(xn − x∗)‖

+ ‖ (Hf (x∗) −Hf (x

n ))(xn+1 − xn )‖

≤ ηn+1 ‖xn+1 − x∗ ‖ + ηn ‖xn − x∗ ‖ + ϵn ‖xn+1 − xn ‖

≤ ηn+1 ‖xn+1 − xn‖ + ηn+1 ‖xn−x∗‖

‖xn+1−xn ‖ ‖xn+1 − xn‖

+ ηn‖xn−x∗‖‖xn+1−xn ‖ ‖x

n+1 − xn‖ + ϵn ‖xn+1 − x∗‖

für geeignete Nullfolgen (ηn )n∈N und (ϵn )n∈N gilt, erhalten wir für den zweitenSummanden bereits die gewünschte Konvergenzordnung

‖∇f (xn+1) − ∇f (xn) −Hf (xn )(xn+1 − xn )‖ = o(‖xn+1 − xn‖).

Für den ersten Summanden erhalten wir diese Rate zum Beispiel für Approxi-mationenHn mit

Hn+1(xn+1 − xn ) = ∇f (xn+1) − ∇f (xn ) (28.2)

und‖Hn+1 −Hn‖ → 0. (28.3)

Um die Notation im Folgenden etwas zu vereinfachen, de�nieren wir H ≔

Hn, H+ ≔ Hn+1, s ≔ xn+1 − xn und y ≔ ∇f (xn+1) − ∇f (xn ). Vor diesemHintergrund vereinfacht sich Bedingung (28.2) zu

H+s = y,

welche manchmal auch als Quasi-Newton–Gleichung bezeichnet wird. Für die



Konstruktion der nächsten ApproximationHn+1 gehenwir folgendermaßen vor:

(i) Die neue Approximation Hn+1 soll die Quasi-Newton-Gleichung für diebereits bestimmten Vektoren s und y erfüllen.

(ii) Der Abstand ‖Hn+1 −Hn ‖ zwischen der neuen und der alten Approxima-tion soll möglichst klein werden.

Als Abstand wird hier üblicherweise die Frobenius-Norm de�niert durch

‖A‖2F ≔N∑

n=1

N∑

m=1

|anm |2 (A ∈ RN×N )

verwendet. Äquivalent kann diese ebenfalls über die Spur durch

‖A‖2F = tr(ATA)

de�niert werden. Aus den Eigenschaften der Spur folgt für jede Orthonormalba-sis {v1, . . . , vN } von RN außerdem die Darstellung

‖A‖2F =N∑

n=1

‖Avn‖2.

ZurMinimierung von ‖Hn+1−Hn ‖ beziehungsweise von ‖H+−H ‖ ergänzenwir die Suchrichtung s/‖s‖ zu einer orthonormal Basis {s/‖s‖, v2, . . . , vN }. Dannfolgt

‖H+ −H ‖2F =‖H+s −Hs‖2

‖s‖2 +

N∑

n=2

|H+vn −Hvn ‖2.

Aufgrund der Quasi-Newton-Gleichung ist der erste Summand ‖y−Hs‖/‖s‖2 da-mit konstant. Der zweite Summand wird minimal falls H+vn = Hvn für n =2, . . . ,N . Eine Matrix, welche die geforderten Eigenschaften erfüllt, ist zum Bei-spiel

H+ =H +(y −Hs)sT

‖s‖2 . (28.4)

Genauer folgt aus der Orthogonalität unmittelbar

H+s =Hs +(y −Hs)sTs

‖s‖2 = y



und

H+vn =Hvn +(y −Hs)sTvn

‖s‖2 =Hvn .

Die Wahl (28.4) wird gewöhnlich als Broyden-Update bezeichnet. Weil jedeMatrixM der FormM ≔ uvT o�ensichtlich den Rang eins besitzt, spricht manin diesem Fall auch von einem Rang-1-Update. Ein kleiner Nachteil des Broyden-Updates ist, dass die konstruierte MatrixH+ im Gegensatz zur Hesse-Matrix inder Nähe eines strikten Minimums leider nicht symmetrisch oder positiv de�-nit sein muss. Um diese zusätzlichen Eigenschaft ebenfalls zu erhalten, benötigtman eine Rang-2-Modi�kation, wie sie zum Beispiel das so genannte Davidon-Fletcher-Powell-Update. Der Ansatz zur Konstruktion dieses Updates ist voll-kommen analog zum Broyden-Update, wobei die Frobenius-Matrix allerdingsbezüglich eines geeigneten Gewichts minimiert wird. Den theoretischen Hin-tergrund bildet hierbei der folgende Satz, wobei die Menge S+ alle symmetri-schen und positiv de�niten Matrizen umfasst. Für den Beweis siehe beispiels-weise [GK99, Satz 11.6].

Satz 28.1 (Davidon-Fletcher-Powell-Update). Die MatrixH ∈ S+ und dieVektoren s,y ∈ RN mit s • y > 0 seinen gegeben. Dann existiert eine MatrixW ∈ S+ mit W 2s = y und die Lösung des Minimierungsproblems

minM∈S+

‖W −1(M −H )W −1‖F mit Ms = y

ist gegeben durch das Davidon-Fletcher-Powell-Update (DFP-Update)

HDFG+=H +

(y −Hs)yT+ y(y −Hs)T

y • s− (y −Hs) • s

(y • s)2yyT.

Die Voraussetzung s•y > 0 ist hierbei für die Existenz einer positiv de�nitenMatrixM ∈ S+, welche die Quasi-Newton-Gleichung (28.2) erfüllt, notwendig.Ansonsten würden wir unmittelbar die Abschätzung

sTMs = s • y < 0

erhalten, welche der positiven De�nitheit widerspricht.Um die neue Suchrichtung sn mitHns

n= −∇f (xn ) möglichst einfach zu be-

stimmen, sind wir an einem inversen Update vonB :=H−1 interessiert, so dasswir lediglich die Vektor-Matrix-Multiplikation sn = −B∇f (xn ) durchführenmüssen. Unter Verwendung der inversen Quasi-Newton-Bedingung B+y = s



erhält man ähnlich zumDFP-Update das sogenannte Broyden-Fletcher-Gold-farb-Shanno-Update. Für den Beweis siehe beispielsweise [GK99, Satz 11.8].

Satz 28.2 (Broyden-Fletcher-Goldfarb-Shanno-Update). DieMatrixB ∈S+ und die Vektoren s,y ∈ RN mit s • y > 0 seien gegeben. Dann existiert eineMatrix W ∈ S+ mit W 2s = y und die Lösung des Minimierungsproblems

minM∈S+

‖W (M −B)W ‖F mit My = s

ist gegeben durch das inverse Broyden-Fletcher-Goldfarb-Shanno-Update(BFGS-Update)

BBFGS+

= B +(s −By)sT + s(s −By)T

s • y− (s −By) • y

(s • y)2ssT.

Allgemein können mit Hilfe der Sherman-Morrison-Woodbury-Formel be-liebige Rang-1-Modi�kationen auf die inverse Matrix übertragen werden.

Lemma 28.3 (Sherman-Morrison-Woodbury-Formel). Die Matrix A ∈RN×N sei invertierbar und die Vektorenu, v ∈ RN seien gegeben. Falls 1+vTAu ,

0, dann ist die Rang-1-Modi�kationA + uvT invertierbar mit

(A + uvT)−1 = A−1 − A−1uvTA−1

1 + vTA−1u.

Beweis. Die Behauptung lässt sich durch einfaches Nachrechnen überprüfen.Genauer haben wir

(A + uvT)−1(A + uvT) = I +A−1uvT − A−1uvT+A−1u(vTA−1u)vT

1 + vTAu= I .

�

Insbesondere können auf diese Weise die Quasi-Newton-Updates in inver-se Quasi-Newton-Updates überführt werden und andersherum. Da es sich beiden meisten vorgestellten Updates um Rang-2-Modi�kationen handelt, muss dieSherman-Morrison-Woodbury-Formel hierbeimehrmals angewendetwerden.Den Beweis für die inversen Darstellungen kann man allerdings wesentlich ein-facher durch bloßes Nachrechnen erbringen.



Satz 28.4 (Inverse Updates). Die Matrix H ∈ S+ und B = H−1 sowie dieVektoren y, s ∈ RN mit y • s > 0 seinen gegeben. Dann gilt

BDFP+= B +

ssT

y • s− ByyTB

yTBy

und

HBFGS+

=H +yyT

s • y− HssTH

sTHs.

Anhand der inversen Darstellungen lässt sich wesentlich besser erkennen,dass es sich beim Davidon-Fletcher-Powell-Update und beim inversen Broy-den-Fletcher-Goldfarb-Shanno-Updatewirklich um Rang-2-Modi�kationenhandelt. Des Weiteren können wir mit diesen Darstellungen zeigen, dass dasBFGS-Update wieder eine symmetrische und positiv de�nite Matrix liefert.

Satz 28.5 (Symmetrie und positive Definitheit des BFGS-Updates). DieMatrixH ∈ S+ und die Vektoren y, s ∈ RN mit y • s > 0. Dann giltHBFGS

+∈ S+

und HBFGS+

erfüllt die Quasi-Newton-Bedingung.

Beweis. O�ensichtlich HBFGS+

aufgrund der Darstellung in Satz 28.4 symme-trisch. Für die positive De�nitheit nutzen wir aus, dass jede symmetrische undpositiv de�nite MatrixH eine Cholesky-ZerlegungH = RTR mit einer regu-lären oberen Dreiecksmatrix R besitzt. Mit Hilfe der Cauchy-Schwarz-Unglei-chung folgt jetzt

dTHBFGS+

d = dTHd +(d • y)2

s • y − (Rd •Rs)2

‖Rs‖2

≥ ‖Rd‖2 + (d • y)2

s • y − ‖Rd‖2 ‖Rs‖2

‖Rs‖2 =

(d • y)2

s • y ≥ 0,

(28.5)

womit istHBFGS+

zumindest positiv semide�nit ist.Angenommen es existiert eine Richtung d , 0 mit dHBFGS

+d = 0, dann müs-

sen beide Ungleichungen in (28.5) mit Gleichheit erfüllt sein. Für die Cauchy-Schwarz-Ungleichung ist dies genau dann der Fall, wenn die VektorenRd undRs linear abhängig sind. Es gibt also ein t ∈ R mitRd = tRs oder d = t s. Fürden verbleibenden Term auf der rechten Seite von (28.5) erhalten wir

(d • y)2

y • s = t2(s • y) ≥ 0.


29. Lokale Konvergenz des Broyden- und BFGS-Verfahrens 155

Insgesamt kann Gleichung dHBFGS+

d = 0 vomNull-Vektor d = 0 erfüllt werden,womit HBFGS

+wirklich positiv de�nit ist.

Die Wirkung der neuen Approximation HBFGS+

auf die Suchrichtung s ist ge-geben durch

HBFGS+

s =Hs +y • ss • y

y − sTHs

sTHsHs = y,

was gerade der Quasi-Newton-Bedingung entspricht und somit den Beweis be-endet. �

29. Lokale Konvergenz des Broyden- und BFGS-Verfahrens

Ähnlich zum Newton-Verfahren konvergieren die Quasi-Newton-Ver-fahren für hinreichend gute Startwerte superlinear. Um die Konvergenz-

raten theoretisch herzuleiten, beschränken wir uns auf das einfachere Broy-

den-Verfahren. Die Konvergenzgeschwindigkeiten der restlichen Quasi-New-

ton-Verfahren können mit analogen Argumenten gezeigt werden.

Algorithmus 29.1 (Lokales Broyden-Verfahren).Voraussetzung: Startwerte x0 ∈ RN und H0 ∈ RN×N .


→ STOP

(2) Berechne sn als Lösung von Hnsn= −∇f (xn).

(3) Setze xn+1 ≔ xn + sn und yn ≔ ∇f (xn+1) − ∇f (xn ).(4) Verwende das Broyden-Update

Hn+1 =Hn +(yn −Hns

n )(sn )T

‖sn‖2

und setze n ≔ n + 1.


In einem ersten Schritt werden wir zunächst zeigen, dass das Broyden-Ver-fahren überhaupt lokal konvergiert. Hierfür benötigen wir, dass sich die Appro-ximation derHesse-Matrix durch das Broyden-Update nicht zu sehr verschlech-tert.



Lemma 29.2 (Approximation derHesse-Matrix). Die Funktion f : RN → Rsei zweimal stetig di�erenzierbar mit lokal Lipschitz-stetiger zweiten AbleitungHf (·) und (xn )n∈N sei eine von Algorithmus 29.1 erzeugte Folge. Wenn die Fol-ge (xn )n∈N gegen ein x∗ konvergiert, dann gilt für hinreichend große n ∈ N dieAbschätzung

‖Hn+1 −Hf (x∗)‖ ≤ ‖Hn −Hf (x

∗)‖ + L2 (‖x

n+1 − x∗‖ + ‖xn − x∗‖).

Als Vorbereitung auf den Beweis betrachten wir den folgenden Hilfssatz.

Lemma 29.3. Für jeden mehrdimensionalen Vektor v ∈ RN mit N > 1 und v , 0

gilt I − uuT

uTu

= 1.

Beweis. Wir betrachten die Matrix M ≔ I − uuT

uTu, welche nach Konstruktion

mindestens den Rang N − 1 besitzt und somit nicht die Null-Matrix sein kann.Die Matrix M ist o�ensichtlich idempotent. Genauer haben wir

M 2= I − uuT

uTu+

u(uTu)uT

(uTu)2= I − uuT

uTu=M .

Für jeden Eigenwert λ mit Eigenvektor v folgt deswegen

λv =Mv =M 2v = λ2v,

was nur für λ ∈ {0, 1} erfüllt sein kann. Weil M symmetrisch und nicht überallnull ist, folgt somit

‖M ‖2 = λmax(MTM ) = λmax (M ) = 1. �

Beweis von Lemma 29.2. Aus der De�nition des Broyden-Updates erhaltenwir durch Umformen die Identität

Hn+1 −Hf (x∗)

=Hn −Hf (x∗) +

(yn −Hnsn )(sn )T

‖sn‖2

=Hn −Hf (x∗) +

(Hf (x∗)sn −Hns

n )(sn )T

‖sn‖2 +

(yn −Hf (x∗)sn )(sn)T

‖sn‖2



= (Hn −Hf (x∗))

(

I − sn (sn )T

‖sn‖2)

+

(yn −Hf (x∗)sn)(sn )T

‖sn‖2.

Aus Lemma 29.3 und der Cauchy-Schwarz-Ungleichung erhalten wir damit dieAbschätzung

‖Hn+1 −Hf (x∗)‖ ≤ ‖Hn −Hf (x

∗)‖ +‖yn −Hf (x

∗)sn‖‖sn‖

.

Für hinreichend große n ∈ N ist der zweite Summand Aufgrund des Mittelwert-satzes für vektorwertige Funktionen, der Dreiecksungleichung und der lokalenLipschitz-Stetigkeit der zweiten Ableitung durch

‖yn −Hf (x∗)sn‖ = ‖∇f (xn+1) − ∇f (xn ) −Hf (x

∗)(xn+1 − xn )‖

≤1∫

0

‖Hf (xn+ t (xn+1 − xn )) −Hf (x

∗)‖ dt ‖xn+1 − xn‖

≤ L1∫

0

t ‖xn+1 − x∗‖ + |t − 1| ‖xn − x∗‖ dt ‖xn+1 − xn‖

=L2 (‖x

n+1 − x∗‖ + ‖xn − x∗‖) ‖sn‖

beschränkt, woraus die Behauptung folgt. �

Satz 29.4 (Lokale Konvergenz). Die Funktion f : RN → R sei zweimal stetigdi�erenzierbar mit lokal Lipschitz-stetiger zweiter AbleitungHf (·) und x∗ sei einstationärer Punkt von f mit invertierbarer Hesse-MatrixHf (x

∗). Dann existierenKonstanten δ > 0 und ϵ > 0, so dass für x0 ∈ Bϵ (x∗) und H0 ∈ Bδ (Hf (x

∗)) dievon Algorithmus 29.1 erzeugte Folge (xn )n∈N linear gegen x∗ konvergiert.

Beweis. Wir setzen c := ‖H−1f(x∗)‖ und wählen die Radii der beiden Umge-

bungen als

δ ≤ 1

6cund ϵ ≤ 2δ

3L,



wobei L die lokale Lipschitz-Konstante auf Bδ (x∗) bezeichnet. Für die Startwer-

te x0 ∈ Bϵ (x∗) und H0 ∈ Bδ (Hf (x∗)) zeigen wir durch vollständige Induktion

‖Hn −Hf (x∗)‖ ≤ (2 − 2−n ) δ (29.1)

und‖xn+1 − x∗‖ ≤ 1

2 ‖xn − x∗‖. (29.2)

Die Induktionsvoraussetzung gelte bereits für die Indizes 0, . . . ,n− 1. Wendenwir (29.1) und (29.2) auf die Ungleichung in Lemma 29.2 an, erhalten wir

‖Hn −Hf (x∗)‖ ≤ (2 − 2−(n−1) ) δ + 3

4 L ‖xn−1 − x∗‖.

Schätzen wir den letzen Summanden zusätzlich durch die Ungleichung

‖xn+1 − x∗‖ ≤ 2−(n−1) ‖x0 − x∗‖ ≤ 2−(n−1) ϵ

ab, folgt durch

‖Hn −Hf (x∗)‖ ≤ (2 − 2−(n−1) ) δ + 3

4 L 2−(n−1) ϵ

≤ (2 − 2−(n−1) + 2−n ) δ

= (2 − 2−n ) δ

die erste Behauptung.

Um mit Hilfe der neuen ApproximationHn die nächste Iterierte xn+1 berech-

nen zu können, benötigen wir die Invertierbarkeit vonHn. Aus den Induktions-voraussetzungen folgt hierfür

‖I −H−1f (x∗)Hn‖ = ‖H−1

f (x∗)(Hf (x∗) −Hn )‖ ≤ c (2 − 2−n ) δ ≤ 2cδ ≤ 1

3 ,

womit die Regularität vonHn aus demBanach-Lemma (Lemma25.6) zusammenmit

‖H−1n ‖ ≤

‖H−1f(x∗)‖

1 − ‖I −H−1f(x∗)Hn‖

≤ c

1 − 13

=

3

2c

folgt. Aus der IterationsvorschriftHn (xn+1 − xn ) = −∇f (xn) erhalten wir nun

Hn (xn+1 − x∗) = −∇f (xn ) + ∇f (x∗) +Hf (x

∗)(xn − x∗)+ (Hn −Hf (x

∗))(xn − x∗)



und durch Multiplikation mitH−1n außerdem

‖xn+1 − x∗‖ ≤ ‖H−1n ‖

(

‖∇f (xn ) − ∇f (x∗) −Hf (x∗)(xn − x∗)‖

+ ‖Hn −Hf (x∗)‖‖xn − x∗‖

)

.

Durch Anwenden des Mittelwertsatzes für vektorwertige Funktion erhalten wirfür den ersten Summanden

‖∇f (xn ) − ∇f (x∗) −Hf (x∗)(xn − x∗)‖

≤1∫

0

‖Hf (x∗+ t (xn − x∗)) −Hf (x

∗)‖ dt ‖xn − x∗‖

≤ L2 ‖x

n − x∗‖2 ≤ 2−nϵL2 ‖xn − x∗‖ ≤ 2−n

3 δ ‖xn − x∗‖.

Insgesamt gilt somit

‖xn+1 − x∗‖ ≤ 32 c

(2−n

3 + (2 − 2−n ))

δ ‖xn − x∗‖

≤ 3cδ ‖xn − x∗‖ ≤ 12 ‖x

n − x∗‖,

womit wir auch die zweite Behauptung gezeigt haben. �

Die lokale superlineare Konvergenz folgt nun aus den Dennis-Moré-Bedin-gungen.

Satz 29.5 (Lokale superlinear Konvergenz). Die Funktion f : RN → R seizweimal stetig di�erenzierbarmit lokal Lipschitz-stetiger zweitenAbleitungHf (·)und x∗ sei ein stationärer Punkt von f mit invertierbarer Hesse-Matrix Hf (x

∗).Dann konvergiert Algorithmus 29.1 lokal superlinear gegen x∗.

Für den Beweis benötigen wir die folgende Abschätzung.

Lemma 29.6. Für alle Matrizen A ∈ RN×N und Vektoren u ∈ RN mit A , 0

und u , 0 gilt

A(

I − uuT

uTu

) F ≤ ‖A‖F − 12‖A‖F

( ‖Au‖2‖u‖

)2.



Beweis. Aus der Permutationseigenschaft der Spur folgt für die Frobenius-Norm die Darstellung

A(

I − uuT

uTu

) 2F = tr((

I − uuT

uTu

)

ATA(

I − uuT

uTu

))

= tr(ATA) − 2 uTATAu‖u ‖4 +

‖u ‖2uTATAu‖u ‖4

= tr(ATA) − ‖Au‖2‖u‖2 .

= ‖A‖2F(

1 − ‖Au‖2‖u‖2‖A‖2F

)

Ergänzen wir das fehlende Quadrat, erhalten wir schließlich

A(

I − uuT

uTu

) 2F ≤ ‖A‖2F(

1 − ‖Au2

‖A‖2F‖u‖2 +

14

‖Au‖4

‖A‖4F ‖u‖4)

= ‖A‖2F(

1 − 12‖Au‖2‖A‖2F ‖u‖2

)2. �

Beweis von Satz 29.5. Wir setzen den Beweis von Satz 29.4 fort, welcher unsfür geeignete Startwerte x0 ∈ Bϵ (x∗) und H0 ∈ Bϵ (Hf (x

∗)) bereits die lineareKonvergenz der erzeugten Folge (xn )n∈N nachx∗ sichert.Während des Beweisesverwenden wir die Abkürzungen

en ≔ xn − x∗ und En ≔ Hn −Hf (x∗).

Führen wir den Beweis von Lemma 29.2 mit der Frobenius-Norm ‖ · ‖F anstelleder Spektralnorm ‖ · ‖2, erhalten wir die Abschätzung

‖En+1‖F ≤ En

(

I − sn (sn )T

(sn )Tsn

) F + L2 (‖en+1‖ + ‖en‖)

≤ ‖En‖F − ‖Ensn ‖2

2 ‖En ‖F‖sn ‖2 +34 L ‖en‖,

wobei wir Lemma 29.6 und Gleichung (29.2) verwenden. Zusammen mit derÄquivalenz

1√N‖A‖F ≤ ‖A‖2 ≤ ‖A‖F

zwischen der Frobenius- und Spektralnorm und der Abschätzung (29.1) aus demBeweis von Satz 29.4 erhalten wir

‖Ensn‖2

‖sn‖2 ≤ 2 ‖En‖F(

‖En‖F − ‖En+1‖F + 34 L ‖en‖

)



≤ 4√N δ

(

‖En‖F − ‖En+1‖F + 34 L ‖en‖

)

.

Durch Aufsummieren der erstenM Approximationsfehler in Richtung sn folgt

M∑

n=0

‖Ensn‖2

‖sn ‖2 ≤ 4√N δ

(

‖E0‖F + ‖EM+1‖F + 34 L

M∑

n=0

‖en‖)

.

Aus der Wahl der Startwerte folgt nun

‖E0‖F − ‖EM+1‖F ≤ ‖E0‖F ≤√N δ

und aus (29.2) und der geometrischen Summe

M∑

n=0

‖en ‖ ≤M∑

n=0

2−n ‖en‖ ≤ (2 − 2−M ) ϵ .

Durch den Grenzübergang von der Summe zur Reihe gilt

∞∑

n=0

‖Ensn‖2

‖sn‖2 ≤ 4√N δ

(√N δ + 3

2 Lϵ)

< ∞,

womit die Summanden ‖Ensn ‖2/‖sn ‖2 eine Nullfolge bilden müssen. Insgesamt er-

halten wir‖Ens

n‖‖sn‖ =

‖ (Hn −Hf (x∗))(xn+1 − xn )‖

‖xn+1 − xn‖ → 0,

was äquivalent zur Dennis-Moré-Bedingung in Korollar 25.12 ist. �

Eines der am weitesten verbreiteten Quasi-Newton-Verfahren ist das BFGS-Verfahren mit inversem Update.

Algorithmus 29.7 (Lokales BFGS-Verfahren).Voraussetzung: Startwerte x0 ∈ RN und B0 ∈ S+.


→ STOP

(2) Berechne sn ≔ −Bn∇f (xn).(3) Setze xn+1 ≔ xn + sn und yn ≔ ∇f (xn+1) − ∇f (xn ).



(4) Verwende BFGS-Update

Bn+1 ≔ Bn +(sn −Bny

n )(sn )T + sn (sn −Bnyn )T

sn • yn

− (sn −Bnyn ) • yn

(sn • yn)2 sn (sn )T

und setze n ≔ n + 1.


Das BFGS-Verfahren gehört zu den derzeit e�zientestenOptimierungsverfah-ren für große Probleme. Dies liegt zum Beispiel daran, dass anstelle der inver-sen Matrizen Bn lediglich die Vektoren sn und yn gespeichert werden müssen.Die Multiplikation mit der negativen Gradientenrichtung kann sehr e�zient mitHilfe von rekursiven Algorithmen bestimmt werden. Die superlineare Konver-genz kann ähnlich zum lokalen Broyden-Verfahren argumentiert werden. Wirbeschränken uns hierbei ohne Beweis lediglich auf das entsprechende Resultat,siehe beispielsweise [GK99, Satz 11.33].

Satz 29.8 (Lokale Konvergenz). Die Funktion f : RN → R sei zweimal stetigdi�erenzierbar mit lokal Lipschitz-stetiger zweiter AbleitungHf (·) und x∗ ∈ RN

sei ein stationärer Punkt von f mit invertierbarer Hesse-Matrix Hf (x∗). Dann

existieren Konstanten δ > 0 und ϵ > 0, so dass für x0 ∈ Bϵ (x∗) und B0 ∈

Bδ (H−1f(x∗) mit B0 ∈ S+ Algorithmus 29.7 superlinear gegen x∗ konvergiert.

Analog zum Newton-Verfahren sind die Quasi-Newton-Verfahren nur lo-kal konvergent. Wir benötigen somit hinreichend gute Startwerte um die Kon-vergenz zu einem stationären Punkt zu gewährleisten. Durch Verwendung desNewton-ähnlichen Abstiegsverfahren bezüglich der Matrizen HBFGS

n kann dieKonvergenz des Broyden-Fletcher-Goldfarb-Shanno-Verfahren globalisiertwerden. Um die positive De�nitheit des BFGS-Updates zu gewährleisten, wirdzur Bestimmung der Schrittweite hier die Powell-Wolfe-Regel verwendet.

Algorithmus 29.9 (Globalisiertes BFGS-Verfahren).Voraussetzungen:

• Startwerte x0 ∈ RN und B0 ∈ S+,• Parameter γ ∈ (0, 1/2) und η ∈ (γ , 1).




→ Stop

(2) Berechne sn ≔ −Bn∇f (xn).(3) Bestimme eine Schri�weite σn mit Algorithmus 22.5, welche die Powell-

Wolfe-Bedingung für die Parameter γ und η erfüllt.

(4) Setze xn+1 ≔ xn + σn sn.

(5) Bestimme dn ≔ σnsn und yn ≔ ∇f (xn+1) − ∇f (xn ).

(6) Verwende das BFGS-Update

Bn+1 ≔ Bn +(dn −Bny

n )(dn )T + dn (dn −Bnyn )T

dn • yn

− (dn −Bnyn ) • yn

(dn • yn )2dn (dn)T

und setzte n ≔ n + 1.


Lemma 29.10. Die Funktion f : RN → R sei stetig di�erenzierbar und für dieletzte Iteration von Algorithmus 29.9 gelte ∇f (xn) , 0 undBn ∈ S+. Wenn σn diePowell-Wolfe-Bedingung erfüllt, dann giltBn+1 ∈ S+.

Beweis. Weil die Symmetrie und positive De�nitheit sich direkt auf die inverseMatrix überträgt, folgt die Behauptung aus Satz 28.5, sobald wir yn • dn > 0

gezeigt haben. Aus der Krümmungsbedingung

∇f (xn+1) • sn ≥ η ∇f (xn ) • sn

der Powell-Wolfe-Regel folgt

yn • dn = σn(

∇f (xn+1) • sn − ∇f (xn) • sn)

≥ −σn (1 − η) (∇f (xn ) • sn )

= σn (1 − η) ∇f (xn )TBn∇f (xn ) > 0 �



Satz 29.11 (Globale Konvergenz). Die Funktion f : RN → R sei Lipschitz-stetig di�erenzierbar und nach unten beschränkt. Existieren Konstanten 0 < µ1 ≤µ2, so dass für alle n ∈ N die Eigenwerte der inversen Approximationen Bn dieBedingung

µ1 ≤ λmin(Bn ) ≤ λmax(Bn ) ≤ µ2

erfüllen, dann konvergiert Algorithmus 29.9 global.

Beweis. Solange Algorithmus 29.9 nicht abbricht und der Gradient ∇f (xn ) , 0

verschwindet, sind die inversen ApproximationenBn der Hesse-Matrizen nachLemma 29.10 positiv de�nit. Für die Suchrichtung sn folgt hieraus

∇f (xn ) • sn = −∇f (xn)TBn∇f (xn) < 0,

womit die Richtungen sn insbesondere Abstiegsrichtungen sind. Satz 22.6 si-chert, dass Algorithmus 22.5 zur Bestimmung einer Powell-Wolfe-Schrittwei-te nach endlich vielen Schritten beendet wird und damit das globalisierte BFGS-Verfahren durchgeführt werden kann. Nach Lemma 29.10 sind die Matrizen Bn

und damit auch die inversenMatrizenHn positiv de�nit, womit die globale Kon-vergenz unmittelbar aus Korollar 24.6 folgt. �

Wie für das Newton-Verfahren erfüllt die Schrittweite σn = 1 unter gewis-sen Voraussetzungen für hinreichend große Indizes n ∈ N die Powell-Wolfe-Bedingung, womit das globalisierte Verfahren irgendwann in das lokale BFGS-Verfahren übergeht und die superlineare Konvergenz einsetzt.


Literaturverzeichnis

[Cla16] Clason, Christian: Nichtlineare Optimierung / Fakultät für Mathematik, UniversitätDuisburg-Essen. 2016. – Vorlesungsskript (WiSe 2015/16)

[GK99] Geiger, Carl ; Kanzow, Christian: Numerische Verfahren zur Lösung unrestringierterOptimierungsaufgaben. Berlin : Springer, 1999 (Springer-Lehrbuch)

[Lan13] Lange, Kenneth: Optimization. 2nd Edition. New York : Springer, 2013 (Springer Textsin Statistics 95)

[LY08] Luenberger, David G. ; Ye, Yinyu: Linear and Nonlinear Programming. 3rd Edition.New York : Springer, 2008 (International Series in Operation Research & ManagementScience ISOR 116)

[Men98] Mendel, Manfred: Primal-duale pfadorientierte Innere- und Äußere-Punkte-Verfahren.Shaker Verlag, 1998

[Men10] Mendel, Manfred: Primal-Duale Innere-Punkte-Methoden / Fachbereich C – Mathe-matik undNaturwissenschaften, BergischeUniversität Wuppertal. 2010. – Vorlesungs-skript (WiSe 2009/10)

[Pan14] Pan, Ping-Qi: Linear Programming Computation. Berlin : Springer, 2014

[Ped04] Pedregal, Pablo: Introduction to Optimization. New York : Springer, 2004 (Texts inApplied Mathematics 46)

[Pol97] Polak, Elijah: Optimization : Algorithms and Consistent Approximations. New York :Springer, 1997 (Applied Mathematical Sciences 124)


optimierung i - ig matheinstitut für mathematik und wissenscha˝liches rechnen...

Documents