vorlesung, wintersemester 2009/10m. schölzel 1 optimierungstechniken in modernen compilern...

Vorlesung, Wintersemester 2009/10 M. Schölzel

Optimierungstechniken in modernen Compilern

Einführung

2Optimierungstechniken in modernen Compilern Einführung

Klassifizierung von Computersystemen

Klassifizierung nach Flynn:

Single Instruction Single Data (SISD): Ein einzelner Prozessor führt einen Befehlsstrom auf Daten in einem

Datenspeicher aus.

Multiple Instruction Single Data (MISD): Eine Sequenz von Daten aus

demselben Speicher wird von mehreren Ausführungseinheiten bearbeitet, von denen jede einen

eigenen Steuerfluss besitzt.

Single Instruction Multiple Data (SIMD): Ein einzelner Befehl steuert mehrere Ausführungseinheiten, von denen jede Zugriff auf einen lokalen

Speicher hat.

Multiple Instruction Multiple Data (MIMD): Mehrere Steuerflüsse

steuern mehrere Ausführungseinheiten, von denen jede

Zugriff auf einen lokalen Speicher hat.

Alle Ausführungseinheiten greifen auf denselben

Datenspeicher zu.

Jede Ausführungseinheiten besitzt einen lokalen

Datenspeicher (z.B. einen Cache).

Einordnung von Prozessorarchitekturen

Prozessororganisation

SISD SIMD MISD MIMD

Shared Memory

Distributed Memory

ClusterSymmetric Multiprocessor

Non-UniformMemory Access

(NUMA)

Vector Processor

Array Processor

Uniprocessor

Scalar Superscalar

Dynamic Scheduled

Static Scheduled

Static AllocationDynamic Allocation

i386, i486

Pentium

VLIW: Transmeta Crusoe, Philips

TriMedia

GeclusterteVLIWs

Dual-Core Pentium

Itanium

TMS320C62x

Skalarer Prozessor ohne Pipeline

Typische Optimierungen des Compilers: Registerdruck minimieren Geeigneten Zielcode auswählen

Registerbank

Speicher

ldm (r8) r0

ldm (r9) r1

ldm (r10) r2

add r0,r1 r0

add r0,r2 r0

use r8,r9,r10

ldm (r8) r0

ldm (r9) r1

add r0,r1 r0

ldm (r10) r1

add r0,r1 r0

use r8,r9,r10

ldc #8 r0

add r0,r8 r0

ldm (r0) r1

ldm (r8+8) r1

Speicher

Schematischer Aufbau:Hoher Registerdruck: Geringer Registerdruck:

Schlechte Codeauswahl: Bessere Codeauswahl:

Skalarer Prozessor mit Befehlspipeline

Typische Optimierungen des Compilers: Registerdruck minimieren Geeigneten Zielcode auswählen Pipeline-Hazards vermeiden

Registerbank

Speicher

EX/MEM

MEM/WB

ldm (r8) r0

ldm (r9) r1

add r0,r1 r0

ldm (r10) r2

add r0,r2 r0

ldm (r8) r0

ldm (r9) r1

ldm (r10) r2

add r0,r1 r0

Schematischer Aufbau:Schlechte Befehlsanordnung:

Bessere Befehlsanordnung:

Superskalarer Prozessor

Typische Optimierungen des Compilers: Registerdruck minimieren Geeigneten Zielcode auswählen Umordnung der Operationen, um Abhängigkeiten zwischen Operationen im Befehlspuffer

zu minimieren.

Registerbank

ALU Speicher

DE1/DE2

DE2/EX

EX/MEM

MMUALU

FE/DE1

Speicher

Befehlspuffer

add r0,r1 r2

add r0,r2 r2

add r0,r3 r4

add r0,r4 r4

add r0,r1 r2

add r0,r3 r4

add r0,r2 r2

add r0,r4 r4

Schlechte Befehls-anordnung für Puffer mit Kapazität 2:

Schematischer Aufbau:

Bessere Befehls-anordnung für Puffer mit Kapazität 2:

Typische Optimierungen des Compilers: Registerdruck minimieren Geeigneten Zielcode auswählen Pipeline-Hazards vermeiden Feingranulare Parallelität erkennen und Operationen statisch

parallelisieren.

Registerbank

ALU Speicher

EX/MEM

MMUALU

Speicheradd r0,r1 r2

add r0,r2 r2

add r0,r3 r4

add r0,r4 r4

add r0,r1 r2 | add r0,r3 r4

add r0,r2 r2 | add r0,r4 r4

Schematischer Aufbau: Sequentieller Programmcode:

Parallelisierter Programmcode:

Typische Optimierungen: Grobgranulare Parallelität erkennen und das Programm in Threads aufteilen,

so dass wenig Synchronisation zwischen den Threads erforderlich ist. Registerdruck minimieren Geeigneten Zielcode auswählen Pipeline-Hazards vermeiden

call f

call gcall f

Registerbank

FE/DESpeicher

EX/MEM

MEM/WB

Registerbank

FE/DESpeicher

EX/MEM

MEM/WB

ldc #100 r0

loopHead:

dec r0

cmp r0,#0

jnz loopHead

ldc 100 r0

loopHead:

dec r0

cmp r0,#50

jg loopHead

ldc 50 r0

loopHead:

dec r0

cmp r0,#0

jnz r0 loopHead

Cache Cache

gemeinsamer Speicher

Schematischer Aufbau: Sequentieller Code: Code Proc1: Code Proc2:

call g

Sequentieller Code: Code Proc1: Code Proc2:

Warum soll der Compiler optimieren?

Optimierungen auf Quelltextebene (z.B. durch den Programmierer) sind möglich, machen es aber erforderlich, dass der Quelltext für jede Zielarchitektur optimiert wird.

Verschiedene Optimierungen, die auf Zielcodeebene erforderlich sind, lassen sich in einer Hochsprache nicht formulieren (z.B. Registerplanung):

Statisch geplante Architekturen:• Compiler führt Scheduling und Allokation durch – auf Quelltextebene in der

Regel nicht ausdrückbar Dynamisch geplante bzw. skalare Architekturen

• Compiler kann Hazards vermeiden helfen und Pipeline besser füllen• Nur ein kleines Fenster für die Optimierung in Hardware; Compiler kann

optimierbaren Code in dieses Fenster schieben SMP

• Compiler verteilt Programmcode und macht Parallelisierung möglich Programmiersprachen besitzen sequentielle Semantik; Geeignete

Form der Parallelität muss durch den Compiler erkannt werden: feingranular, grobgranular.

Demonstration dieser Problematik an einem Beispiel: Matrixmultiplikation

Optimal für eine skalare Architektur. Ergebnis der Multiplikation wird im Register für t akkumuliert.

for i = 1 to 100 step 1 do for j = 1 to 100 step 1 do t = 0.0; for k = 1 to 100 step 1 do t = t + a[j][k] * b[k][i] od c[j][i] = t; odod

i = 1iLoop: j = 1jLoop: t = 0.0; k = 1kLoop: t = t + a[j][k] * b[k][i] k = k + 1 if k <= 100 then goto kLoop c[j][i] = t; j = j + 1 if j <= 100 then goto jLoop i = i + 1; if i <= 100 then goto iLoop

Was kann parallel ausgeführt werden?

Basisblock enthält keine nennenswerte Parallelität

Iterationen der k-Schleife können nicht parallel ausgeführt werden: Iteration k+1 benötigt Wert von t aus Iteration k.

Iterationen der j-Schleife können nicht parallel ausgeführt werden: Benutzung derselben Variablen t.

Iterationen der i-Schleife können nicht parallel ausgeführt werden: Benutzung derselben Variablen t.

Scalar Expansion

Basisblock enthält keine nennenswerte Parallelität

Iterationen der k-Schleife können nicht parallel ausgeführt werden: Iteration k+1 benötigt Wert t[j] aus Iteration k.

Iterationen der j-Schleife können parallel ausgeführt werden, weil a und b nur gelesen werden und Akkumulation in unterschiedliche Elemente von t erfolgt.

Iterationen der i-Schleife können nicht parallel ausgeführt werden: Benutzung derselben Variablen t.

for i = 1 to 100 step 1 do for j = 1 to 100 step 1 do t[j] = 0.0; for k = 1 to 100 step 1 do t[j] = t[j]+a[j][k]*b[k][i] od c[j][i] = t[j]; odod

Loop-Distribution

for i = 1 to 100 step 1 do for j = 1 to 100 step 1 do t[j] = 0.0; od for j = 1 to 100 step 1 do for k = 1 to 100 step 1 do t[j] = t[j]+a[j][k]*b[k][i] od od for j = 1 to 100 step 1 do c[j][i] = t[j]; odod

for i = 1 to 100 step 1 do for j = 1 to 100 step 1 do t[j] = 0.0; for k = 1 to 100 step 1 do t[j] = t[j]+a[j][k]*b[k][i] od c[j][i] = t[j]; odod

Zuerst Vektor t initialisieren.

Werte in t berechnen.

Werte aus t nach c zurück schreiben.

Initialisieren, Berechnen und Zurückschreiben wurde separiert; kann aber nicht parallel ausgeführt werden.

Initialisieren, Berechnen und Zurückschreiben geschieht Elementweise in t.

Loop-Interchange

for i = 1 to 100 step 1 do for j = 1 to 100 step 1 do t[j] = 0.0; od for k = 1 to 100 step 1 do for j = 1 to 100 step 1 do t[j] = t[j]+a[j][k]*b[k][i] od od for j = 1 to 100 step 1 do c[j][i] = t[j]; odod

Iterationen der inneren Schleife können parallel ausgeführt werden.

for i = 1 to 100 step 1 do for j = 1 to 100 step 1 do t[j] = 0.0; od for j = 1 to 100 step 1 do for k = 1 to 100 step 1 do t[j] = t[j]+a[j][k]*b[k][i] od od for j = 1 to 100 step 1 do c[j][i] = t[j]; odod

Keine nennenswerte Parallelität in der inneren Schleife, da jede Iteration den Wert t[j] aus der vorigen Iteration benötigt.

Möglichkeit der Vektorisierung (idealisiert)

for i = 1 to 100 step 1 do t[1..100] = 0.0; for k = 1 to 100 step 1 do t[1..100] = t[1..100]+a[1..100][k]*b[k][i] od c[1..100][i] = t[1..100];od

for i = 1 to 100 step 1 do for j = 1 to 100 step 1 do t[j] = 0.0; od for k = 1 to 100 step 1 do for j = 1 to 100 step 1 do t[j] = t[j]+a[j][k]*b[k][i] od od for j = 1 to 100 step 1 do c[j][i] = t[j]; odod

Vektoroperation erfordert die parallele Ausführbarkeit der Operationen auf den Elemente des Vektors. Damit sind diese Operationen parallel auf einem superskalaren nicht-Vektor Prozessor ausführbar.

Möglichkeit der Vektorisierung (praktisch)

for i = 1 to 100 step 1 do t[1..100] = 0.0; for k = 1 to 100 step 1 do t[1..100] = t[1..100]+a[1..100][k]*b[k][i] od c[1..100][i] = t[1..100];od

for i = 1 to 100 step 1 do for j = 1 to 100 step 32 do t[j..j+31] = 0.0; od for k = 1 to 100 step 1 do for j = 1 to 100 step 32 do t[j..j+31] = t[j..j+31]+a[j..j+31][k]*b[k][i] od od for j = 1 to 100 step 32 do c[j..j+31][i] = t[j..j+31]; odod

Ausführung auf VLIW-Prozessor mit N Ausführungseinheiten

for i = 1 to 100 step 1 do for j = 1 to 100 step N do t[j] = 0.0; ... ; t[j+N-1] = 0.0; od for k = 1 to 100 step 1 do for j = 1 to 100 step N do t[j] = t[j]+a[j][k]*b[k][i]; ... t[j+N-1] = t[j+N-1]+a[j+N-1][k]*b[k][i]; od od for j = 1 to 100 step N do c[j][i] = t[j]; ... c[j+N-1][i] = t[j+N-1]; odod

N Multiplikationen und Additionen können parallel ausgeführt werden.

for i = 1 to 100 step 1 do for j = 1 to 100 step 32 do t[j..j+31] = 0.0; od for k = 1 to 100 step 1 do for j = 1 to 100 step 32 do t[j..j+31] = t[j..j+31]+a[j..j+31][k]*b[k][i] od od for j = 1 to 100 step 32 do c[j..j+31][i] = t[j..j+31]; odod

Matrixmultiplikation für SMP mit zwei Prozessoren

for i = 1 to 50 step 1 do for j = 1 to 100 step 1 do t0 = 0.0; for k = 1 to 100 step 1 do t0 = t0 + a[j][k] * b[k][i] od c[j][i] = t0; odod

for i = 51 to 100 step 1 do for j = 1 to 100 step 1 do t1 = 0.0; for k = 1 to 100 step 1 do t1 = t1 + a[j][k] * b[k][i] od c[j][i] = t1; odod

Grob- vs. feingranulare Parallelität

for i = 1 to 100 step 1 do for j = 1 to 100 step 1 do t[j] = 0.0; od for j = 1 to 100 step 1 do for k = 1 to 100 step 1 do t[j] = t[j]+a[j][k]*b[k][i] od od for j = 1 to 100 step 1 do c[j][i] = t[j]; odod t

iMatrixmultiplikation vor Loop-Interchange (keine feingranulare Parallelität in der inneren Schleife):

for j = 1 to 50 step 1 do for k = 1 to 100 step 1 do t[j] = t[j]+a[j][k]*b[k][i] odod

for j = 51 to 100 step 1 do for k = 1 to 100 step 1 do t[j] = t[j]+a[j][k]*b[k][i] odod

Aber äußere Schleife kann auf zwei verschiedenen Prozessoren verteilt werden.

Grob- vs. feingranulare Parallelität

for i = 1 to 100 step 1 do for j = 1 to 100 step 1 do t[j] = 0.0; od for k = 1 to 100 step 1 do for j = 1 to 100 step 1 do t[j] = t[j]+a[j][k]*b[k][i] od od for j = 1 to 100 step 1 do c[j][i] = t[j]; odod t

Aufteilen der äußeren Schleife auf verschiedene Prozessoren führt zu gleichzeitigem Schreiben derselben Elemente in t. Ist also nicht möglich.

Matrixmultiplikation nach Loop-Interchange (viel feingranulare Parallelität in der inneren Schleife):

Aufgeworfene Fragen

Unter welchen Umständen ist eine bestimmte Transformation zulässig?

Welche Transformationen erzeugen fein granulare Parallelität, grob granulare Parallelität?

Wie kann die erzeugte fein granulare Parallelität in superskalaren Prozessorarchitekturen genutzt werden?

Wie kann die erzeugte grob granulare Parallelität in SMP Architekturen genutzt werden?

Aufbau der Vorlesung

Einleitung Grundlagen

Aufbau eines Compilers Überblick über die Analysephase Vorgehen bei einfacher Synthesephase Zwischencodeformate Datenflussanalyseschema Modellierung von Datenabhängigkeiten Abhängigkeitsanalyse

Optimierungstechniken für DSPs und Mikrocontroller Globale Registerallokation Scheduling-Techniken Code-Selektion

Optimierunbgstechniken für superskalare Prozessoren Erzeugung fein granularer Parallelität Trade-Off Registerallokation/ILP Statische/Dynamische Parallelisierung HW-Support für bessere statische Parallelisierung Region-Based-Scheduling Global Code Motion Traces, Superblöcke, Hyperblöcke Modulo Scheduling IF-Conversion

Optimierungstechniken für SMPs Erzeugung grob granularer Parallelität Parallelisierung ohne Synchronisierung Parallelisierung mit Synchronisierung (OpenMP)

vorlesung, wintersemester 2009/10m. schölzel 1 optimierungstechniken in modernen compilern...

r0 cmp r0

r1 r0 stall

r8 r0 ldm r0 r1 ldm

r1 r0 ldm r10 r1

r1 r0 use r8

r1 r0 schematischer

r2 r0 use r8

r1 r0 ldm r10 r2 stall

Documents

strategie oder chaos? - marketing 2.0 im modernen mix

konzept/architektur von modernen lernumgebungen

das detail in der modernen architektur v

a simple and practical index to measure dementia …*...

automatentheorie und formale sprachen wintersemester...

tum career days wintersemester 2013/14

wintersemester 2018/19 selected topics in efficient

messiastraditionen im judentum wintersemester 2010

skript zur vorlesung lauterkeitsrecht (wintersemester 2018

reichenbach 1930_die philosophische bedeutung der modernen...

die 5 säulen der modernen erp

governance and public policy - staatswissenschaften...

menüarten mobiler anwendungen alexander fischer erfurt...

sap erp hcm self-services: ein klassiker im modernen gewand

bachelorarbeitsthemen wintersemester 2020/21 area supply

dr. habil dilek zamantılı nayır wintersemester 2014-2015...

datenqualitätsanalyse mit modernen...

lexikalisch-semantische besonderheiten der...

im wintersemester 2021/2022

wintersemester 2009/10 teil 7 question...