energy-proportional photonic interconnects nikos hardavellas parag@n – parallel architecture group...
TRANSCRIPT
Energy-ProportionalPhotonic Interconnects
Nikos HardavellasPARAG@N – Parallel Architecture Group
Northwestern University
Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik
© Hardavellas2
Technology Scaling Runs Out of SteamTransistor counts increase exponentially, but…
Can no longer power the entire chip(voltage, cooling do not scale)
© Hardavellas3
Technology Scaling Runs Out of SteamTransistor counts increase exponentially, but…
Can no longer feed all coreswith data fast enough(package pins do not scale)
Can no longer power the entire chip(voltage, cooling do not scale)
Power
Wall
2003 2006 2009 2012 20150
2
4
6
8
10
12
14 Transistor Scaling (Moore's Law)
Pin Bandwidth
Year
Scal
ing
Fact
or
© Hardavellas4
2003 2006 2009 2012 201502468
101214
Transistor Scaling (Moore's Law)
Pin Bandwidth
Year Sc
alin
g Fa
ctor
Technology Scaling Runs Out of SteamTransistor counts increase exponentially, but…
Can no longer feed all coreswith data fast enough(package pins do not scale)
BandwidthW
all
Can no longer keep costs at bay(process variation, defects)
Low Yield
Can no longer power the entire chip(voltage, cooling do not scale)
Power
Wall
Monolithic (single-chip) processordesigns running out of steam too
© Hardavellas5
Galaxy: Optically-Connected Disintegrated Processors
• Physical constraints limit the performance of single-chip designs Area, Yield, Power, Bandwidth
• Multi-chip designs break free of these limitations Processor disintegration Macro-chip integration
[WINDS-2010, ICS-2014]
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing ElementPE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
© Hardavellas6
Outline• Introduction
➔ Background• Scalable Multi-Chip System Design with Silicon Photonics
Galaxy Architecture Experimental Results
• Energy-Proportional Photonic Interconnects EcoLaser ProLaser
• Conclude
© Hardavellas7
Nanophotonic Components
off-chiplaser
source
coupler
resonant modulators
resonant detectors
Ge-doped
waveguide
© Hardavellas8
Modulation and Detection
11010101
11010101
10001011
10001011
16 - 64 wavelengths DWDM10Gbps per link
5 - 20μm waveguide pitch
1 - 16 TB/s/mmbandwidth density
© Hardavellas9
Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics
➔ Galaxy Architecture Experimental Results
• Energy-Proportional Photonic Interconnects EcoLaser ProLaser
• Conclude
© Hardavellas10
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
R
R R
R R
R R
R R
R R
R R
R R
Optical Crossbar
P0 P1
P2 P3R
Cluster 0
Cluster 1
Cluster 2
Cluster 3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
P0 P1
P2 P3
R
R R
R R
R R
R R
R R
R R
R R
P0 P1
P2 P3R
Cluster 0
Cluster 1
Cluster 2
Cluster 3
A0
© Hardavellas11
Routing Example
Optical Fiber bundle
Waveguide bundle
A B
Galaxy Architecture (5-chiplet example)
© Hardavellas12
© Hardavellas13
Why Fibers?Traditional alternatives are:• Electrical strips (SerDes) on FR4 board
Fibers are 10x more efficient: 180 fJ/bit vs. 2.5pJ/bit for 4’’ Fibers offer 8 TB/s/mm vs. pin interface (<200GB/s)
• Electrical wires on a silicon interposer Fibers are 3x more efficient: 180 fJ/bit vs. 0.5pJ/bit Fibers have a reach of several feet, vs. ~4 mm Fibers transmit one bit per 4-16 um pitch, vs ~70 um pitch
• SOI waveguides on a silicon wafer Fibers are twice as fast: 0.286c vs 0.676c Fibers have negligible optical loss: 0.3db/cm vs. 0.2db/Km
• Do not confine the design on a single board, package, or wafer
© Hardavellas14
Dense Off-Chip Coupling
• Dense optical fiber array [Lee, OSA/OFC/NFOEC 2010]
• ~3.8dB loss, 8 Tbps/mm demonstrated• Misalignment within <0.7μm, 0.4μm, 0.7μm> loss <1 dB
Connects a fiber array to an on-chip waveguide array at a chip’s edge
© Hardavellas15
Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics
Galaxy Architecture ➔ Experimental Results
• Energy-Proportional Photonic Interconnects EcoLaser ProLaser
• Conclude
© Hardavellas16
Modeling Infrastructure
Flexus 4.0Booksim 2.0
Cycle Accurate Full System Simulation
Power Calculations with Runtime Statistics
McPat 0.8 DSENT
AnalyticalModel +
HotSpot5.0
FloTherm9.2
Single Chip Design
Multi-Chip Design
Cores,Cache,MCs
Interconnect
DRAMSim 2.0
Thermal Modeling
+
Operating Temperature
Accurate Lekageand Dynamic
Power
DVFS for Temperature
Limiting
3D-stack model
SimFlex sampling95% confidence
photonic-layerring heating
© Hardavellas17
Impact of Disintegration: Speedup Over Single-Chip
M C F G M C F G M C F G M C F G M C F GAppbt Em3d Ocean Tomcatv Average
0
0.2
0.4
0.6
0.8
1
1.2
Unconstrained
P-constrained
Memory-intensive Workloads
Spee
dup
Processor Disintegration with Galaxy: 2–3x speedup
M=Concentrated Mesh w/Exp.Links, C=Corona, F=Firefly, G=Galaxy
© Hardavellas18
Impact of Disintegration: Speedup Over “Unlimited”
M C F G M C F G M C F G M C F G M C F GAppbt Em3d Ocean Tomcatv Average
0
0.2
0.4
0.6
0.8
1
1.2
Unconstrained
P-constrained
BW-constrained
(P+BW)-constrained
Galaxy
Memory-intensive Workloads
Spee
dup
Galaxy matches the performance of “unlimited” designs
M=Concentrated Mesh w/Exp.Links, C=Corona, F=Firefly, G=Galaxy
© Hardavellas19
Macrochip Integration with Galaxy
Fiber
Galaxy: 2.5x speedup over Oracle Macrochip (6.8x max) Galaxy’s lasers each consumes 6x less power
© Hardavellas20
80-core 5-chiplet Galaxy Thermal CFD Modeling
8cm spacing allows cooling with cheap passive heatsinks
88.20C
© Hardavellas21
9-chiplet Dense Array (Oracle Macrochip)
Tight arrangement points to liquid cooling requirement
2490C
© Hardavellas22
9-chiplet Galaxy 3D
Flexible fibers allow “virtual chip” to break free of 2D planar designs
83.60C
© Hardavellas23
Galaxy Summary• “Virtual chips” with the performance of unlimited designs• Breaks free of typical physical constraints
Large aggregate area Improved yield (break-even point : 60% yield for photonics) Tb/s/mm bandwidth density Pushes back power wall
• Processor disintegration 2.4x – 3.2x avg. speedup (3.4 max) 2.4x – 2.8x avg. smaller EDP (7.1x max)
• Macrochip integration 2.5x speedup over Oracle Macrochip (6.8x max) 6x more power efficient links
© Hardavellas24
Problem 1: High Laser Power
• Silicon photonics are emerging as a promising technology for high-bandwidth, low-latency, and energy-efficient communication in many-cores
• However, lasers are really power-hungry Optical devices induce optical loss (13+ dB is typical) WDM-compatible lasers are 5-10% efficient
10-20x higher laser power than required optical output
© Hardavellas25
Problem 2: Laser Power is Wasted
• Interconnect may stay idle for long times Compute-intensive execution phases of workloads 30% server utilization in Google data centers
• But laser stays always on! …even during periods of interconnect inactivity
Up to 88% energy waste in real-world workloads
© Hardavellas26
Solution: Laser Power Gating
• Turn the lasers off when interconnect is idle• Turn the lasers on before sender transmits
• Overlooked until now Traditional comb lasers are slow to turn on
• New enabling technology: Germanium Lasers Turn on/off in 1ns On-chip simplify design and lower cost
© Hardavellas27
Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics
Galaxy Architecture Experimental Results
• Energy-Proportional Photonic Interconnects ➔ EcoLaser
ProLaser• Conclude
© Hardavellas28
EcoLaser: Adapt Laser to Interconnect Traffic• First paper on laser power gating
Power down lasers when not needed Relaxed turn-off to facilitate opportunistic senders
• Adaptive mechanism to determine stay-on time Monitors interconnect activity
• Result Highlights 24 – 77% energy savings on real workloads 1.1 – 2x speedup Within 2-6% of a perfect (ideal) scheme
[ISLPED-2014]
© Hardavellas29
SWMR Optical Bus
1101010110001011
1101010110001011
11
1111 11
…
…
Router 0(Home)
Router 1 Router N-2 Router N-1
…
Data Bus
Reservation Channel
R0R1
D0D1…………
© Hardavellas30
MWSR Optical Bus
1101010110001011
1101010110001011
1
…
…
Router 0 Router 1 Router N-2Router N-1
(Home)
…
Token Stream
Data Bus
T0T1
D0D1…………
EcoLaser Design - MWSR
Laser turn-on request via token stream Laser Turn On31 © Hardavellas
© Hardavellas32
Adaptive Laser Control• The laser stays on for K cycles each time it turns on• Static-K laser control
K is statically set, stays fixed across time We model a range of static schemes
• Adaptive laser control Approximate ideal value of K at each time interval Monitor the laser turn-on signals Too many increase K higher performance Too few lower K higher energy savings
Balance energy savings with interconnect performance
© Hardavellas33
Interconnect Performance - MWSR
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
10
20
30
40
50
601 cyc
2 cyc
3 cyc
5 cyc
10 cyc
30 cyc
100 cyc
Perfect
Adaptive
No-ControlInjection Rate (packet/cycle)
La
ten
cy
(p
roc
. c
yc
les
)
Static: saturate early (56% throughput for Static-1) Adaptive: provides max interconnect throughput
© Hardavellas34
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.20.40.60.8
11.21.41.61.8 1 cyc
2 cyc
3 cyc
5 cyc
10 cyc
30 cyc
100 cyc
Perfect
Adaptive
No-ControlInjection Rate (packet/cycle)
No
rm.
En
erg
y /
Fli
t
Static: fail to capture all energy savings Adaptive: within 3% of the Perfect scheme
Interconnect Energy - MWSR
© Hardavellas35
Fm
m
Mo
ldyn
Ba
rne
s
To
mca
tv
Ap
pb
t
Oce
an
Em
3d
Ave
rag
e
0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1
00.5
11.5
22.5
No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect
Sp
eed
up
Higher laser power -> higher performance impact Adaptive: 2x speedup at 29% laser energy (within 6% Perfect)
EcoLaser Speedup – radix-64 MWSR
MeasuredInjection
Rate
© Hardavellas36
N E 11
0 A P N E 11
0 A P N E 11
0 A P N E 11
0 A P N E 11
0 A P
Moldyn Fmm ……… Ocean Em3d Average0.02 0.04 ……… 0.14 0.18 0.1
00.5
11.5
22.5
3
Laser Modulation Ring_Heating Memory_DynMemory_Leak Core_Dyn Core_Leak
No
rm.
En
erg
y X
De
lay
Impact on Energy × Delay – radix-64 MWSR
...
...
Radix-64 impractical to implement without laser control Adaptive: 3.8x lower EDP, within 7% of Perfect
© Hardavellas37
EcoLaser Summary• Power down lasers when not needed
Relaxed turn-off to facilitate opportunistic senders Monitor & adapt to interconnect activity
• Result Highlights 24 – 77% energy savings on real workloads 1.1 – 2x speedup Within 2-6% of a perfect (ideal) scheme
• But Complicated token scheme Can do much better
Yes, we can improve 2x over this “Perfect” scheme
© Hardavellas38
Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics
Galaxy Architecture Experimental Results
• Energy-Proportional Photonic Interconnects EcoLaser
➔ ProLaser• Conclude
DFB Laser
DFB Laser
DFB Laser…
λ1
λ2
λN
Data-O
nlyBits
λ1 λ2 … λN
λ1 λ2 … λN
…DFB Laser
DFB Laser
DFB Laser
…λ1
λ2
λN
Comm
onBits
λ1 λ2 … λN
λ1 λ2 … λN
…
Data Bus
ProLaser: Segregate Data from Control
39 © Hardavellas
Switch on only the necessary interconnect portion
[IEEE Photonics - 2014]
© Hardavellas40
ProLaser: Proactively Switch On LaserL2 Cache Requests& Replies
Switch Allocator& VC Allocator
…
…Rese
rvati
on
Chan
nels
Dat
a Ch
anne
ls
…
L
L
L
L
L
LR1 R2 RN
CH1
CHN
CH2
RCHN
RCH2RCH1
LasersInject 1
Inject C
…
… Eject 1
Eject C
Data Channel i
Data Channel 1
Data Channel N
O/E
O/E
Laser Controller
VC0
VC1
VC2
VC0
VC1
VC2
E/O
E/O
Reservation Channel i
…E/O
Common Channel i
L2 Cache Slice
Bloom Filter
Bloom filters + coherence protocol predict accesses
© Hardavellas41
ProLaser: Interconnect Performance
ProLaser almost perfect saturation; EcoLaser saturates early
© Hardavellas42
ProLaser: Interconnect Energy
ProLaser saves 49-88% of laser power ProLaser is ~2x better than EcoLaser; 2-6% of Perfect
© Hardavellas43
ProLaser: Performance Impact
60% speedup over No-Ctrl; 40% over flattened buttefly
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6 Flat-ButterflyNo-CtrlAverageSimpleEcoLaserProLaserPerfect No-Ctrl-OffChipPower_Eq-OffChipSimple-OffChipEcoLaser-OffChipProLaser-OffChipPerfect-OffChip
Sp
ee
du
p
© Hardavellas44
Sensitivity to Laser Turn-on Delay
Tolerates high laser delays (7x increase 15% penalty)
© Hardavellas45
Conclusions
• Galaxy breaks free of typical physical constraints “Virtual chips” with the performance of unlimited designs Processor disintegration: 3.2x speedup, 2.8x EDP (7x max) Macrochip integration: 6.8x speedup, 6x lower power Provides system design flexibility
• Adaptive Laser Control Makes power-hungry photonic interconnects practical Saves 49-88% of the laser energy Provides 50-70% speedup
46
Thank You!
Questions?
© Hardavellas
© Hardavellas47
TECHNOLOGY BACKUP SLIDES
© Hardavellas48
Chip Power Scaling
Chip power does not scale
[Azizi 2010]
© Hardavellas49
Demand for High-Performance Computing Grows
• Large Hadron Collider in March’11: 1.6PB data (Tier-1)• Large Synoptic Array Survey Telescope: 30 TB/night
i.e., 2x Sloan Digital Sky Surveys/night Sloan: more data than entire history of astronomy before it
Data grows faster than Moore’s Law
More data more computing power to process them
© Hardavellas50
Voltage Scaling Has Slowed
In last decade: 13x transistors but 30% lower voltage Cannot run all transistors fast enough
2003 2006 2009 2012 2015
0.1
1
10
100
Transistor Scaling (Moore's Law)
Supply Voltage
Year
Sca
lin
g F
acto
r
© Hardavellas51
Pin Bandwidth Scaling
[TU Berlin]
Cannot feed cores with data fast enough to keep them busy
2003 2006 2009 2012 20150
2
4
6
8
10
12
14
Transistor Scaling (Moore's Law)
Pin Bandwidth
Year
Sca
ling
Fac
tor
© Hardavellas52
Electrical vs. Photonic Links
[Nitta et al., 2013]
© Hardavellas
Electrical (SerDes) vs. SOI Waveguides vs. Fibers
0.01 0.1 1 10 1000.01
0.1
1
10
100
Distance (cm)
Late
ncy
(ns)
0.01 0.1 1 10 1000.01
0.1
1
10
100
Distance (cm)
Ener
gy (p
J/bi
t)
0 5 10 15 20 25 30 35 400.001
0.010.1
110
100
SerDes LinkSOI WaveguideFiber
Distance (cm)
Ener
gy x
Lat
ency
(p
J*ns
/bit)
© Hardavellas54
SWMR vs. MWSR Crossbar Single-Writer Multiple-Reader• Broadcast bus• All receivers always read• On-rings optical loss• High laser power
Multiple-Writer Single-Reader• Only one receiver reads• Only one ring is on low loss• Low laser power• Needs arbitration
© Hardavellas55
GALAXY BACKUP SLIDES
© Hardavellas56
Single Chiplet Connectivity
Galaxy MWSR Optical Crossbar
© Hardavellas57
MWSR avoids broadcast data bus, but requires arbitration
© Hardavellas58
Token-Based ArbitrationVC Token
back traversal
VC Token forward traversal
Data Channel
8 cycles on average for token arbitration (5 chiplets)
© Hardavellas59
Modeling Infrastructure
Flexus 4.0Booksim 2.0
Cycle Accurate Full System Simulation
Power Calculations with Runtime Statistics
McPat 0.8 DSENT
AnalyticalModel +
HotSpot5.0
FloTherm9.2
Single Chip Design
Multi-Chip Design
Cores,Cache,MCs
Interconnect
DRAMSim 2.0
Thermal Modeling
+
Operating Temperature
Accurate Lekageand Dynamic
Power
DVFS for Temperature
Limiting
3D-stack model
SimFlex sampling95% confidence
photonic-layerring heating
© Hardavellas60
Architectural Parameters
© Hardavellas61
Nanophotonic Parameters
© Hardavellas62
Load Latency (uniform random traffic)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
10
20
30
40
50
60
70
80
CMeshExp
Corona
Firefly
Galaxy
Injection Rate
Avg.
Lat
ency
(cyc
les)
© Hardavellas63
Load-Latency Curves
16 tokens provide optimal buffer depth
© Hardavellas64
Impact of Disintegration: Speedup Over “Unlimited”
M C F G M C F G M C F G M C F G M C F GBarnes Fmm Moldyn Water Average
0
0.2
0.4
0.6
0.8
1
1.2
Unconstrained
BW-constrained
P-constrained
(P+BW)-constrained
Galaxy
Compute-intensive Workloads
Spee
dup
Galaxy matches the performance of “unlimited” designs
M=Concentrated Mesh w/Exp.Links, C=Corona, F=Firefly, G=Galaxy
© Hardavellas65
Performance Against “Realistic” DesignsAp
pbt
Em3d
Oce
anTo
mca
tvBa
rnes
Fmm
Mol
dyn
Wat
erAv
erag
eAp
pbt
Em3d
Oce
anTo
mca
tvBa
rnes
Fmm
Mol
dyn
Wat
erAv
erag
eAp
pbt
Em3d
Oce
anTo
mca
tvBa
rnes
Fmm
Mol
dyn
Wat
erAv
erag
e
Conventional Memory Optically Connected Memory
3D Stacked Memory
012345678
CMeshExp Corona Firefly Galaxy
Spee
dup
• Realistic: within power and bandwidth envelopes• Galaxy chiplets within 66 - 88oC chiplets run at max speed
Galaxy: 2.4x - 3.2x speedup on average (3.4 max) Galaxy: 2.4x-2.8x smaller EDP on average (up to 7.1x smaller)
© Hardavellas66
Comparison Against Multi-Chip Alternatives
© Hardavellas67
Tapered vs. Optical Proximity Couplers
6x less laser power than Oracle Macrochip with demonstrated couplers
0 1 2 3 4 5 6 70.01
0.1
1
10Macrochip (0.05 dB/cm)
OPC passive-aligned
OPC active-aligned
OPC predicted
Galaxy
SiON cladding
SU-8 cladding
Coupler Loss (dB)
Las
er P
ower
per
wav
e-le
ngth
(mW
)
© Hardavellas68
Laser Power Sensitivity to Optical Parameters
Coupler Loss
Off-Ring LossWaveguide & Filter Drop Loss
Modulator Insertion Loss
Highly sensitive to coupler loss, insensitive to other losses
© Hardavellas69
Sensitivity to Fiber Density
• 116mm2 chiplets 43mm along the chip edge• Enough room for 172 fibers @ 250μm pitch
128 fibers: within 3% of max performance
Appbt
Em3d
Ocean
Tomcatv
Barnes
Fmm
Moldyn
Water
Average
00.20.40.60.8
11.21.41.61.8
28 fibers 16 fibers 32 fibers 64 fibers 128 fibers 256 fibers 512 fibers
Spee
du
p
© Hardavellas70
Energy-Delay Product
Galaxy: 2.4x-2.8x smaller EDP on average (7.1x max)
© Hardavellas71
Energy per Instruction
Galaxy: 12-20% lower energy/instruction on average (up to 2.3x less)
© Hardavellas72
9-chiplet Galaxy 2D
Cooling 9 chiplets with passive heatsinks
1100C
© Hardavellas73
ECOLASER BACKUP SLIDES
Laser Power Consumption
Modulator Insertion
Loss
Off-Ring Loss
Waveguide Loss
Filter Drop Loss
10x Wall-plug Laser
Power
74 © Hardavellas
EcoLaser Design - SWMR
Message in injection buffers Laser Turn On
75 © Hardavellas
© Hardavellas76
EcoLaser Token Design• Traditional token provides arbitration only
1 bit is sufficient
• EcoLaser token needs to T: Facilitate arbitration L: Indicate light presence on data bus S: Provide laser turn-on signal
Check if the laser is on first, before sending the turn on signal
Laser turn-on signal should trail T/L by one cycle Denote dedicated slot (to avoid starvation)
T
L
S
T
© Hardavellas77
EcoLaser 3-bit Token and Laser Controller FSM
© Hardavellas78
EcoLaser Writer Node FSM
MWSR Laser Control Example
Token stream
Data stream
R3
R2
R1
R0
Router
Laser Source
R0 R1 R2 R3
T3
1 10
T2
1 10
T1
1 10
T0
1 10
T7
1 10
T6
1 10
T5
1 10
T4
1 10
D6 D5 D4 D3D2 D1 D0 D7Off
79 © Hardavellas
R0 R1 R2 R3
T4
1 10
T3
1 10
T2
1 10
T1
1 10
T0
1 10
T7
1 10
T6
1 10
T5
1 10
D7 D6 D5 D4D3 D2 D1 D0Off
t = 1
MWSR Laser Control Example
80 © Hardavellas
0
R0 R1 R2 R3
T5
1 10
T4
1 10
T3
1 10
T2
1 10
T1
1 10
T0
1 10
T7
00
T6
1 10
D0 D7 D6 D5D4 D3 D2 D1Off
t = 2
MWSR Laser Control Example
81 © Hardavellas
0
R0 R1 R2 R3
T6
1 10
T5
1 10
T4
1 10
T3
1 10
T2
1 10
T1
1 10
T0
00
T7
1 00
D1 D0 D7 D6D5 D4 D3 D2Off
t = 3
MWSR Laser Control Example
82 © Hardavellas
01
R0 R1 R2 R3
T7
1 10
T6
1 10
T5
1 10
T4
1 10
T3
1 10
T2
1 10
T1
0
T0
1 00
D2 D1 D0 D7D6 D5 D4 D3On
t = 4
MWSR Laser Control Example
83 © Hardavellas
R0 R1 R2 R3
T0
1 10
T7
1 10
T6
1 10
T5
1 10
T4
1 10
T3
1 10
T2
0
T1
0
D3 D2 D1 D0D7 D6 D5 D4On
t = 5
MWSR Laser Control Example
011 0
84 © Hardavellas
R0 R1 R2 R3
T1
1 10
T0
1 10
T7
1 10
T6
1 10
T5
1 10
T4
1 10
T3
0
T2
0
D4 D3 D2 D1D0 D7 D6 D5On
t = 6
MWSR Laser Control Example
011 0
85 © Hardavellas
011 0
R0 R1 R2 R3
T2
1 10
T1
1 10
T0
1 10
T7
1 10
T6
1 10
T5
1 10
T4
0
T3
0
D5 D4 D3 D2D1 D0 D7 D6On
t = 7
MWSR Laser Control Example
86 © Hardavellas
R0 R1 R2 R3
T3
1 01
T2
1 10
T1
1 10
T0
1 10
T7
1 10
T6
1 10
T5 T4
D6 D5 D4 D3D2 D1 D0 D7On
t = 8
MWSR Laser Control Example
011 00 0
87 © Hardavellas
R0 R1 R2 R3
T4
1 11
T3
1 01
T2
1 10
T1
1 10
T0
1 10
T7
1 10
T6 T5
D7 D6 D5 D4D3 D2 D1 D0On
t = 9
MWSR Laser Control Example
011 00 0
88 © Hardavellas
R0 R1 R2 R3
T5
1 11
T4
1 11
T3
1 01
T2
1 10
T1
1 10
T0
1 10
T7 T6
D0 D7 D6 D5D4 D3 D2 D1On
t = 10
MWSR Laser Control Example
011 00 0
89 © Hardavellas
R0 R1 R2 R3
T6
1 11
T5
1 11
T4
1 11
T3
1 01
T2
1 10
T1
1 10
T0 T7
D1 D0 D7 D6D5 D4 D3 D2On
t = 11
MWSR Laser Control Example
011 00 0
90 © Hardavellas
R0 R1 R2 R3
T7
1 11
T6
1 11
T5
1 11
T4
1 11
T3
1 01
T2
1 10
T1 T0
D2 D1 D0 D7D6 D5 D4 D3On
t = 12
MWSR Laser Control Example
011 00 0
91 © Hardavellas
R0 R1 R2 R3
T0
1 11
T7
1 11
T6
1 11
T5
1 11
T4
1 11
T3
1 01
T2 T1
D3 D2 D1 D0D7 D6 D5 D4On
t = 13
MWSR Laser Control Example
011 00 0
92 © Hardavellas
R0 R1 R2 R3
T1
1 10
T0
1 11
T7
1 11
T6
1 11
T5
1 00
T4
1 11
T3 T2
D4 D3 D2 D1D0 D7 D6 D5On
t = 14
MWSR Laser Control Example
011 00 0
93 © Hardavellas
01
R0 R1 R2 R3
T2
1 10
T1
1 10
T0
1 11
T7
1 11
T6
1 11
T5
1 00
T4
1
T3
1 10
D5 D4 D3 D2D1 D0 D7 D6Off
t = 15
MWSR Laser Control Example
94 © Hardavellas
R0 R1 R2 R3
T3
1 10
T2
1 10
T1
1 10
T0
1 11
T7
1 11
T6
1 11
T5
1 00
T4
1 11
D6 D5 D4 D3D2 D1 D0 D7Off
t = 16
MWSR Laser Control Example
95 © Hardavellas
R0 R1 R2 R3
T4
1 10
T3
1 10
T2
1 10
T1
1 10
T0
1 11
T7
1 11
T6
1 11
T5
1 00
D7 D6 D5 D4D3 D2 D1 D0Off
t = 17
MWSR Laser Control Example
96 © Hardavellas
1
R0 R1 R2 R3
T5
1 10
T4
1 10
T3
1 10
T2
1 10
T1
1 10
T0
1 11
T7
11
T6
1 11
D0 D7 D6 D5D4 D3 D2 D1Off
t = 18
MWSR Laser Control Example
97 © Hardavellas
© Hardavellas98
EcoLaser Nanophotonic Parameters
© Hardavellas99
Interconnect Performance – radix-16 MWSR
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
10
20
30
40
50
60 1 cyc
2 cyc
3 cyc
5 cyc
10 cyc
30 cyc
100 cyc
Perfect
Adaptive
No-ControlInjection Rate (packet/cycle)
Late
ncy (
pro
cesso
r cycle
s)
Static: saturate early (56% throughput for Static-1) Adaptive: provides max interconnect throughput
© Hardavellas100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.20.40.60.8
11.21.41.61.8 1 cyc
2 cyc
3 cyc
5 cyc
10 cyc
30 cyc
100 cyc
Perfect
Adaptive
No-ControlInjection Rate (packet/cycle)
No
rm.
En
erg
y /
Flit
Static: fail to capture all energy savings Adaptive: within 3% of the Perfect scheme
Interconnect Energy – radix-16 MWSR
Interconnect Performance – radix-16 SWMR
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
10
20
30
40
50
601 cyc
2 cyc
3 cyc
5 cyc
10 cyc
30 cyc
100 cyc
Perfect
Adaptive
No-ControlInjection Rate
Late
ncy (
pro
c.
cycle
s)
101 © Hardavellas
Interconnect Energy – radix-16 SWMR
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.2
0.4
0.6
0.8
1
1.2 1 cyc
2 cyc
3 cyc
5 cyc
10 cyc
30 cyc
100 cyc
Perfect
Adaptive
No-ControlInjection Rate
No
rmalized
En
erg
y /
Flit
102 © Hardavellas
© Hardavellas103
Fm
m
Mo
ldyn
Ba
rne
s
To
mca
tv
Ap
pb
t
Oce
an
Em
3d
Ave
rag
e
0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4
0
0.4
0.8
1.2
No-Ctrl Power_Eq Static-1Static-10 Adaptive Perfect
Sp
ee
du
p
Laser power savings leave more power for cores faster Adaptive: 1.1x speedup at 50% laser energy (within 2% Perfect)
EcoLaser Speedup – radix-16 MWSR
MeasuredInjection
Rate
© Hardavellas104
Fm
m
Mo
ldyn
Ba
rne
s
To
mca
tv
Ap
pb
t
Oce
an
Em
3d
Ave
rag
e
0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4
0
0.4
0.8
1.2
No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect
Sp
eed
up
Laser power savings leave more power for cores faster Adaptive: 5% speedup at 50% laser energy (within 2% Perfect)
EcoLaser Speedup – radix-16 MWSR
MeasuredInjection
Rate
Fm
m
Mold
yn
Barn
es
Tom
catv
Appbt
Oce
an
Em
3d
Avera
ge
0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4
0
0.4
0.8
1.2
No-Ctrl Power_Eq Static-1 Adaptive Perfect
Sp
eed
up
EcoLaser Speedup – Radix-16 SWMR
105 © Hardavellas
© Hardavellas106
Fm
m
Mo
ldyn
Ba
rne
s
To
mca
tv
Ap
pb
t
Oce
an
Em
3d
Ave
rag
e
0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1
0
0.4
0.8
1.2
No-Ctrl Power_Eq Static-1Static-10 Adaptive Perfect
Sp
ee
du
p
Higher laser power -> higher performance impact Adaptive: 2x speedup at 29% laser energy (within 6% Perfect)
EcoLaser Speedup – radix-64 MWSR
MeasuredInjection
Rate
© Hardavellas107
EcoLaser Speedup for Radix-64 MWSR
EcoLaser Power Savings ~2x Speedup
Fm
m
Mold
yn
Barn
es
Tom
catv
Appbt
Oce
an
Em
3d
Avera
ge
0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1
0
0.4
0.8
1.2
1.6
No-Ctrl Power_Eq Static-1 Adaptive Perfect
Sp
eed
up
EcoLaser Speedup – Radix-64 SWMR
108 © Hardavellas
© Hardavellas109
EcoLaser Speedup for Radix-64 SWMR
EcoLaser Power Savings ~2x Speedup
Fm
m
Mold
yn
Barn
es
Tom
catv
Appbt
Oce
an
Em
3d
Avera
ge
0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4
00.20.40.60.8
11.2
No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect
Sp
eed
up
Static-1 is 19% slower than No-Ctrl on average (30% maximum).Adaptive saves 45% laser energy and it is 4.8% slower than Perfect.
Impact of Latency Overhead
110 © Hardavellas
Fm
m
Mold
yn
Barn
es
Tom
catv
Appbt
Oce
an
Em
3d
Avera
ge
0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4
0
0.2
0.4
0.6
0.8
1
1.2
No-Ctrl Power_Eq Static-1 Adaptive Perfect
Sp
eed
up
Impact of Latency Overhead
111 © Hardavellas
Fm
m
Mold
yn
Barn
es
Tom
catv
Appbt
Oce
an
Em
3d
Avera
ge
0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1
0
0.2
0.4
0.6
0.8
1
1.2
No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect
Sp
eed
up
Impact of Latency Overhead
112 © Hardavellas
Fm
m
Mold
yn
Barn
es
Tom
catv
Appbt
Oce
an
Em
3d
Avera
ge
0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1
0
0.2
0.4
0.6
0.8
1
1.2
No-Ctrl Power_Eq Static-1 Adaptive Perfect
Sp
eed
up
Impact of Latency Overhead
113 © Hardavellas
N E 11
0 A P N E 11
0 A P N E 11
0 A P N E 11
0 A P N E 11
0 A P
Fmm Moldyn ……… Ocean Em3d Average0.04 0.12 ……… 0.7 0.8 0.4
0
0.2
0.4
0.6
0.8
1
Laser Modulation Ring_Heating Memory_DynMemory_Leak Core_Dyn Core_Leak
Norm
. En
erg
y x
Dela
y
Energy × Delay – radix-16 MWSR
No-Ctrl: more energy efficient than Static-1, Power_Eq Adaptive: 13% lower EDP, within 2% of Perfect
...
...
114 © Hardavellas
N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P
Fmm Moldyn
Barnes Tomcatv
Appbt Ocean Em3d Av-er-age0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4
00.10.20.30.40.50.60.70.80.9
Laser Modulation Ring_Heating Memory_Dyn Memory_Leak
No
rm.
En
erg
y x D
ela
y
Energy × Delay – radix-16 SWMR
115 © Hardavellas
© Hardavellas116
N E 11
0 A P N E 11
0 A P N E 11
0 A P N E 11
0 A P N E 11
0 A P
Moldyn Fmm ……… Ocean Em3d Average0.02 0.04 ……… 0.14 0.18 0.1
00.5
11.5
22.5
3
Laser Modulation Ring_Heating Memory_DynMemory_Leak Core_Dyn Core_Leak
No
rm.
En
erg
y X
De
lay
Impact on Energy × Delay – radix-64 MWSR
...
...
Radix-64 impractical to implement without laser control Adaptive: 3.8x lower EDP, within 7% of Perfect
N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P
Fmm Moldyn
Barnes Tomcatv
Appbt Ocean Em3d Av-er-age0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1
0
0.5
1
1.5
2
2.5
3
Laser Modulation Ring_Heating Memory_Dyn Memory_LeakCore_Dyn Core_Leak
No
rm.
En
erg
y x D
ela
y
Energy × Delay – radix-64 SWMR
117 © Hardavellas
Backup Slides• Why not use Off-Chip Laser?
Pro: Higher eff. & off the chip power budget Con: Coupler Loss and intrinsic loss*Conclusion: Off-chip laser source might increase the total
system power consumption.On-Chip laser source with control is more efficient than off-
chip lasers.Ge-based lasers manufactured footprint 1.6um x 4mm,could be smaller.
118 © Hardavellas
Experimental Methodology
CMP Size 64 cores, 480 mm2
Processing Core ULTRASPARC III ISA, up to 5Ghz, OoO,4-wide dispatch/retirement, 96-entry ROB
L1 Cache Split I/D, 64KB 2-way, 2-cycle load-to-use, 2 ports, 64-byte blocks, 32 MSHRs, 16-entry victim cache
L2 Cache Shared, 512 KB per core, 16 way, 64-byte blocks, 14 cycle-hit, 32 MSHRs, 16-entry victim cache
Memory Controller One per 4 cores, 1 channel per Memory ControllerRound-robin page interleaving
Main Memory Optically connected memory [2], 10ns access
Network SWMR and MWSR crossbars, radix-16 and -64300-bit wide links @ 10GHz, 20 flit deep buffers, 3 cycle router delay
119 © Hardavellas
Radix-16 Radix-64
DWDM 64 16
WG Loss 3 dB 3 dB
Non-Linearity 1 dB 1 dB
Modulator Ins. 0.5 dB 0.5 dB
Ring Through 10.24 dB 10.24 dB
Filter Drop 1.2 dB 1.2 dB
Photodetector 0.1 dB 0.1 dB
Total Loss 16.04 dB 16.04 dB
Laser Power 0.401 mW 0.401 mW
Total Laser Power
20.1W 78.1W
Laser Power Consumption
120 © Hardavellas
Radix-16 Area Radix-64
DWDM 64 16
WG 80 160 mm2 1200 300 mm2
Ring Resonators
77K 7.7 mm2 1.2 M 100 mm2
Lasers 4800 34 mm2 19K 125 mm2
Optical Component Count
121 © Hardavellas
Workloads• Fmm: Input 128K• Moldyn: 15, 20, 3.2 M• Barnes: Input 64K• Tomcatv: 4096, 10• Appbt: in.24x24x24x8bit• Ocean: 1026, 9600• Em3d: 400K, 2, 15, 5
122 © Hardavellas
© Hardavellas123
PROLASER BACKAUP SLIDES
Data-O
nly Bits
DFB
DFB
DFB
DFB
DFB
DFB
……
Laser Switch
λ1
λ2
λN
λ1
λ2
λN
λ1 … λN
λ1 … λN
λ1 λ2 … λN
λ1 λ2 … λN
λ1 λ2 … λN
λ1 λ2 … λN
λ & λ
……
Comm
on Bits
Data Bus
Network-on-chipOff-chip laser die
Optical Fiber
SOI Waveguides
Off-Chip Ge-based Laser Source
© Hardavellas125
ProLaser – Architectural Parameters
© Hardavellas126
ProLaser – Nanophotonic Parameters