robust optimal on-board reentry guidance of an european space shuttle

Robust Optimal On-Board Reentry Guidance of an European Space Shuttle

Seminar Differentialspiele

Stephan Schmidt

Gliederung

Der Wiedereintritt– Zielsetzung– Was macht einen Wiedereintritt aus?– Die Probleme an eine Steuerung– Das Differentialspiel als Lösung

Das robuste Differentialspiel– Der Kontrollprozess (Kinematik Equation)– Die Nebenbedingungen– Robust-Optimalität– Die Isaacs Gleichung (Main Equation II)– Neue Lösungsverfahren– „Open-Loop“-Verfahren– Bessere Verfahren

Gliederung

Neuronales Netz– Was ist ein künstliches neuronales Netz?– Das künstliche Neuron– Ideen für Funktionen eines Neurons– Approximierbarkeit– Praktische Realisierung– Gewichtselimination– Sigmoide Aktivierungsfunktionen– Praktische Approximation– Approximationsfehler– Gradient des Fehlers– Der Backpropagationsalgorithmus

Zusammenfassung

Teil 1: Der Wiedereintritt

Zielsetzung

Finde eine automatische Steuerung,die einen Space Shuttle ähnlichen Gleitertrotz Auftretens von unvorhergesehen Ereignissen auf dem optimalen Weg sicher zurück zur Erde bringt.

Die Steuerung muss mit den an Bord zur Verfügung stehenden Mitteln in Echtzeit berechenbar sein.

Was macht einen Wiedereintritt aus?

Ziele:– Kontrollierter Abbau von hoher Bewegungs- und

Lageenergie– Beibehalten der Flugstabilität und Steuerbarkeit– Alleinige Umwandelbarkeit der überschüssigen Energie

durch Reibung, kein Antrieb

Randbedingungen:– Hitze außen und innen– Druck auf den Shuttlerahmen– Tragflächenbelastung– Fluglage bei hoher Geschwindigkeit

Die Probleme an eine Steuerung

„Robust-Optimalität“:– Ungenauigkeiten bei der Modellierung– Unvorhersehbare bzw. nicht-messbare Einflüsse

Berechenbarkeit– Ionisierung der Luft verhindert Funkkontakt zur

Bodenstation

Echtzeit– Die Daten werden sofort benötigt

Zufall– Alle Größen sind abhängig vom Luftdruck, welcher in sehr

großer Höhe unvorhersehbar schwankt und nicht messbar ist

Das Differentialspiel als Lösung

Problem:Finde Wiedereintrittsflugbahn trotz stark schwankender Größe des Luftdrucks p(h)

Idee:Betrachte „worst case“: Wenn selbst bei einem „planmäßig bösartig“ handelnden Luftdruck eine Steuerung zum Wiedereintritt gefunden werden kann, so sollte dies bei einem zufällig handelnden Luftdruck erst recht möglich sein

Lösung:Betrachte Luftdruck und Shuttle als zwei Spieler in einem Differentialspiel

Teil 2: Das robuste Differentialspiel

Der Kontrollprozess

Dem Differentialspiel soll folgende Mechanik zugrunde liegen:

mit:

z: Spielzustand, State Variable

u: Kontrollvariable Spieler I, Control Variable

w: Unbekannt, nicht messbar, Schwankung, Modellfehler oder Kontrollvariable Spieler II

))(),(),(()( twtutzftzdt

d

pmn IRwIRuIRz , ,

Die Nebenbedingungen

Folgende Bedingungen sollen zusätzlich erfüllt werden:

nIRzsenabgeschloszUu )()1

nIRzsenabgeschloszWw )()2

0Zeit endlicher nach endet ProzessDer 3) tt f

Eine Steuerung u(z) heißt genau dann zulässig, wenn

3) und 1)erfüllt :)(, u(z)zWwIRz n

Eine Steuerung w(z) heißt genau dann zulässig, wenn

3) und 2)erfüllt :)(, w(z)zUuIRz n

Robust-Optimalität

Menge aller kontrollierbaren Zustände:

} )( |{ SteuerungzulässigezuIRzS nc

Performance-Index zur Leistungsmessung des Spielers:

IRIRz n :)(

Eine zulässige Steuerung u*(z) heißt robust-optimal genau dann, wenn:

))((maxmin:löst )()(

*f

zWwzUuc tzuSz

Für z aus Sc sei unter Benutzung eines robust-optimalen u* die Auszahlung (Value) definiert als:

))(()( ftzzV

Die Isaacs Gleichung

Optimalitätskriterium:An differenzierbaren Stellen des Values ergibt sich für u* die Optimalitätsbedingung:

cSzzVz

wzVz

uzfVz

0)),(),,(,( **

Dies wird bei Isaacs als Main Equation II bezeichnet

Herkömmliches Differentialspiel dadurch nach Betrachten der singulären Hyperebenen lösbar durch multiple Shooting und Rückwärtsdifferentieren

Robustes Differentialspiel:

w: Schwankung, Unbekannt oder Modellfehler

Neue Lösungsverfahren

Problem:w wird nicht optimal, sondern zufällig gewählt

Ansatz:Diskretisiere die Zeit

Lösung: Rückkopplungssteuerung1. Bestimme derzeitigen Spielzustand z

2. Löse Isaacs-Gleichung für z und benutze so gewonnenes u als Steuerung

3. Verbleibe bei u als Steuerung für selbst gewähltes Zeitintervall

4. Gehe zu 1.

„Open-Loop“-Verfahren

Bessere Verfahren

Problem:– In jedem Schritt muss das RWP der Isaacs-Gleichung neu

gelöst werden

– Bei realistischer Mechanik nicht in Echtzeit zu bewerkstelligen

Idee:– Berechne so viel wie möglich im Voraus

– Interpolation der Pfadfunktion

Neuronales Netz

Teil 3: Das Neuronale Netz

Was ist ein künstliches neuronales Netz?

Abbildung eines Eingabevektors x unter Berücksichtigung eines Gewichtsvektors () auf Ausgabevektor y

Gerichteter, gewichteter Graph

Knoten: künstliche Neuronen, Funktionen

Funktionskomposition

Nicht-linear

yxf NN ),,(:

Das künstliche Neuron

Gewichten und Aggregieren aller Eingaben:

Eingabewert netj (t):

Grad der Aktivierung aj (t):

Ausgabe oj (t):

IRIRfcon 2:

IRIRf kjinp :,

IRIRf jact 3, :

IRIRf jout :,

Ideen für Funktionen eines Neurons

Eingabefunktion:

Aktivierungsfunktion:

Ausgabefunktion

k

iiijconjinp owff

1,

sonst

ff jjinp

jact ,0

,1 ,,

idf jout ,

Approximierbarkeit, Behauptung

Jede stetige, nicht konstante Funktion f ist durch ein (mehrschichtiges) neuronales Netz beliebig genau approximierbar

),,()(max

:,,0,,],[

],[xfxf

fNetzneuronalesconstfbaCfNN

bax

NNd

d

Approximierbarkeit, Beweisskizze

Stetige, nicht konstante Funktionen sind beliebig genau durch Treppenfunktionen approximierbar (WT1)

)()(max:],[

0,,],[:

],[xfxfmitbaTRf

stetigIRbafSeiTR

bax

dTR

md

d

IifconstIifürSetze

baaufconstfINiIgiltDann

dii ba

TRi

dii

TR

,::

],[::

],[

Approximierbarkeit, Beweisskizze

Definiere Neuronen der ersten Schicht als:

Definiere Neuronen der zweiten Schicht als:

Mit 1-Matrix und 0-Vektor gilt dann:

Damit gilt die Behauptung

Iixconstxn ii ,),()(1

IixIndconstxconstn dii baiii ,)(),(],[

2

dNNTR baxxfxf ],[),,()(

Praktische Realisierung

Beweis liefert nur begrenzten Bezug zur Anwendbarkeit:– I im Allgemeinen sehr groß– Bei Steigerung der Genauigkeit müssen Schichten neu

gestaltet werden– Gewichte werden kaum beachtet

Für Anwendung in Praxis:– Netzarchitektur vereinfachen– Netz differenzierbar gestalten

Gewichtselimination

Gilt für die Aktivierungsfunktion:

So können die Schwellwerte als Gewichte aufgefasst werden:

)0,(),( ,, jjjactjjjact netfnetf

nj

o1

o2

o3

1j

2j

3j

nj

o1

o2

o3

1j

2j

3j

1

),(),,( xfxf NNNN

Sigmoide Aktivierungsfunktionen

Problem:Indikatorfunktion macht das Netz nicht-differenzierbar

Substituiere Indikatorfunktion durch sigmoide Funktion fsig:

– fsig ist streng monoton steigend

– Grenzwert ist +/- 1– Üblich:

tanh oder 2/ arctan

-1

-0,8

-0,6

-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

-5 -4 -3 -2 -1 0 1 2 3 4 5

Praktische Approximation

Sei I Menge mit den zu approximierenden Punktepaaren

Zufälliges Aufteilen von I in Trainings- und Validierungsmenge

)(,,...,)(,,)(, 222211 kk xfxxfxxfxI

)(,,...,)(,,)(, 2211 kkT xfxxfxxfxI

)(,,...,)(,,)(, 222211 kkkkkkV xfxxfxxfxI

Approximationsfehler

Für beliebige differenzierbare Metrik definiere:

Lernproblem mit Gradientenabstiegsverfahren:

TIk

kkNN

T xfxf )(),()(

VIk

kkNN

V xfxf )(),()(

kleinmöglichstunter V

T

)(

)(min

Gradient des Fehlers

Bei Verwendung der 2-Norm ergibt sich:

Idee zur Berechnung der Ableitung des neuronalen Netzes:

:),()(),(2

)(),()(2

kNN

Ikkk

NN

Ikkk

NNT

xfxfxf

xfxf

T

T

Der Backpropagationsalgorithmus

1. Initialisierung: Wähle wij zufällig

2. Feedforward: wähle z aus IT zufällig, berechne Ausgabewerte yi schichtweise und speichere die Ableitung j der Neuronen

3. Backpropagation: Traversiere das Netz rückwärts mit der Eingabe zi-yi. Berechne rückwärtigen Fehler in Ausgabeschicht und verdeckten Schichten:

4. Korrigiere Netzgewichte:

5. Gehe zu 2.

)( iiii yz i

ijijj w

0, jiij yw

Zusammenfassung

physikalische und technische Gegebenheiten verlangen die Berücksichtigung zufälliger Luftdruckschwankungen.

Dem Luftdruck wird planmäßiges Handeln zu Grunde gelegt und als Gegenspieler eines Differentialspieles aufgefasst

Lösung als Open-Loop ist nicht echtzeitfähig.

Das Neuronale Netz zur Approximation

Anlernen des Netzes mit Backpropagation

robust optimal on-board reentry guidance of an european space shuttle

Documents

automatische steuerung

zulssige steuerung

steuerung uz heit

betrachte luftdruck

wenneine steuerung wz

steuerungdas differentialspiel

istdas differentialspiel

zufllig handelnden luftdruck