energy-proportional photonic interconnects nikos hardavellas parag@n – parallel architecture group...

Post on 30-Dec-2015

216 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Energy-ProportionalPhotonic Interconnects

Nikos HardavellasPARAG@N – Parallel Architecture Group

Northwestern University

Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik

© Hardavellas2

Technology Scaling Runs Out of SteamTransistor counts increase exponentially, but…

Can no longer power the entire chip(voltage, cooling do not scale)

© Hardavellas3

Technology Scaling Runs Out of SteamTransistor counts increase exponentially, but…

Can no longer feed all coreswith data fast enough(package pins do not scale)

Can no longer power the entire chip(voltage, cooling do not scale)

Power

Wall

2003 2006 2009 2012 20150

2

4

6

8

10

12

14 Transistor Scaling (Moore's Law)

Pin Bandwidth

Year

Scal

ing

Fact

or

© Hardavellas4

2003 2006 2009 2012 201502468

101214

Transistor Scaling (Moore's Law)

Pin Bandwidth

Year Sc

alin

g Fa

ctor

Technology Scaling Runs Out of SteamTransistor counts increase exponentially, but…

Can no longer feed all coreswith data fast enough(package pins do not scale)

BandwidthW

all

Can no longer keep costs at bay(process variation, defects)

Low Yield

Can no longer power the entire chip(voltage, cooling do not scale)

Power

Wall

Monolithic (single-chip) processordesigns running out of steam too

© Hardavellas5

Galaxy: Optically-Connected Disintegrated Processors

• Physical constraints limit the performance of single-chip designs Area, Yield, Power, Bandwidth

• Multi-chip designs break free of these limitations Processor disintegration Macro-chip integration

[WINDS-2010, ICS-2014]

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing ElementPE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

© Hardavellas6

Outline• Introduction

➔ Background• Scalable Multi-Chip System Design with Silicon Photonics

Galaxy Architecture Experimental Results

• Energy-Proportional Photonic Interconnects EcoLaser ProLaser

• Conclude

© Hardavellas7

Nanophotonic Components

off-chiplaser

source

coupler

resonant modulators

resonant detectors

Ge-doped

waveguide

© Hardavellas8

Modulation and Detection

11010101

11010101

10001011

10001011

16 - 64 wavelengths DWDM10Gbps per link

5 - 20μm waveguide pitch

1 - 16 TB/s/mmbandwidth density

© Hardavellas9

Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics

➔ Galaxy Architecture Experimental Results

• Energy-Proportional Photonic Interconnects EcoLaser ProLaser

• Conclude

© Hardavellas10

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

R

R R

R R

R R

R R

R R

R R

R R

Optical Crossbar

P0 P1

P2 P3R

Cluster 0

Cluster 1

Cluster 2

Cluster 3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

P0 P1

P2 P3

R

R R

R R

R R

R R

R R

R R

R R

P0 P1

P2 P3R

Cluster 0

Cluster 1

Cluster 2

Cluster 3

A0

© Hardavellas11

Routing Example

Optical Fiber bundle

Waveguide bundle

A B

Galaxy Architecture (5-chiplet example)

© Hardavellas12

© Hardavellas13

Why Fibers?Traditional alternatives are:• Electrical strips (SerDes) on FR4 board

Fibers are 10x more efficient: 180 fJ/bit vs. 2.5pJ/bit for 4’’ Fibers offer 8 TB/s/mm vs. pin interface (<200GB/s)

• Electrical wires on a silicon interposer Fibers are 3x more efficient: 180 fJ/bit vs. 0.5pJ/bit Fibers have a reach of several feet, vs. ~4 mm Fibers transmit one bit per 4-16 um pitch, vs ~70 um pitch

• SOI waveguides on a silicon wafer Fibers are twice as fast: 0.286c vs 0.676c Fibers have negligible optical loss: 0.3db/cm vs. 0.2db/Km

• Do not confine the design on a single board, package, or wafer

© Hardavellas14

Dense Off-Chip Coupling

• Dense optical fiber array [Lee, OSA/OFC/NFOEC 2010]

• ~3.8dB loss, 8 Tbps/mm demonstrated• Misalignment within <0.7μm, 0.4μm, 0.7μm> loss <1 dB

Connects a fiber array to an on-chip waveguide array at a chip’s edge

© Hardavellas15

Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics

Galaxy Architecture ➔ Experimental Results

• Energy-Proportional Photonic Interconnects EcoLaser ProLaser

• Conclude

© Hardavellas16

Modeling Infrastructure

Flexus 4.0Booksim 2.0

Cycle Accurate Full System Simulation

Power Calculations with Runtime Statistics

McPat 0.8 DSENT

AnalyticalModel +

HotSpot5.0

FloTherm9.2

Single Chip Design

Multi-Chip Design

Cores,Cache,MCs

Interconnect

DRAMSim 2.0

Thermal Modeling

+

Operating Temperature

Accurate Lekageand Dynamic

Power

DVFS for Temperature

Limiting

3D-stack model

SimFlex sampling95% confidence

photonic-layerring heating

© Hardavellas17

Impact of Disintegration: Speedup Over Single-Chip

M C F G M C F G M C F G M C F G M C F GAppbt Em3d Ocean Tomcatv Average

0

0.2

0.4

0.6

0.8

1

1.2

Unconstrained

P-constrained

Memory-intensive Workloads

Spee

dup

Processor Disintegration with Galaxy: 2–3x speedup

M=Concentrated Mesh w/Exp.Links, C=Corona, F=Firefly, G=Galaxy

© Hardavellas18

Impact of Disintegration: Speedup Over “Unlimited”

M C F G M C F G M C F G M C F G M C F GAppbt Em3d Ocean Tomcatv Average

0

0.2

0.4

0.6

0.8

1

1.2

Unconstrained

P-constrained

BW-constrained

(P+BW)-constrained

Galaxy

Memory-intensive Workloads

Spee

dup

Galaxy matches the performance of “unlimited” designs

M=Concentrated Mesh w/Exp.Links, C=Corona, F=Firefly, G=Galaxy

© Hardavellas19

Macrochip Integration with Galaxy

Fiber

Galaxy: 2.5x speedup over Oracle Macrochip (6.8x max) Galaxy’s lasers each consumes 6x less power

© Hardavellas20

80-core 5-chiplet Galaxy Thermal CFD Modeling

8cm spacing allows cooling with cheap passive heatsinks

88.20C

© Hardavellas21

9-chiplet Dense Array (Oracle Macrochip)

Tight arrangement points to liquid cooling requirement

2490C

© Hardavellas22

9-chiplet Galaxy 3D

Flexible fibers allow “virtual chip” to break free of 2D planar designs

83.60C

© Hardavellas23

Galaxy Summary• “Virtual chips” with the performance of unlimited designs• Breaks free of typical physical constraints

Large aggregate area Improved yield (break-even point : 60% yield for photonics) Tb/s/mm bandwidth density Pushes back power wall

• Processor disintegration 2.4x – 3.2x avg. speedup (3.4 max) 2.4x – 2.8x avg. smaller EDP (7.1x max)

• Macrochip integration 2.5x speedup over Oracle Macrochip (6.8x max) 6x more power efficient links

© Hardavellas24

Problem 1: High Laser Power

• Silicon photonics are emerging as a promising technology for high-bandwidth, low-latency, and energy-efficient communication in many-cores

• However, lasers are really power-hungry Optical devices induce optical loss (13+ dB is typical) WDM-compatible lasers are 5-10% efficient

10-20x higher laser power than required optical output

© Hardavellas25

Problem 2: Laser Power is Wasted

• Interconnect may stay idle for long times Compute-intensive execution phases of workloads 30% server utilization in Google data centers

• But laser stays always on! …even during periods of interconnect inactivity

Up to 88% energy waste in real-world workloads

© Hardavellas26

Solution: Laser Power Gating

• Turn the lasers off when interconnect is idle• Turn the lasers on before sender transmits

• Overlooked until now Traditional comb lasers are slow to turn on

• New enabling technology: Germanium Lasers Turn on/off in 1ns On-chip simplify design and lower cost

© Hardavellas27

Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics

Galaxy Architecture Experimental Results

• Energy-Proportional Photonic Interconnects ➔ EcoLaser

ProLaser• Conclude

© Hardavellas28

EcoLaser: Adapt Laser to Interconnect Traffic• First paper on laser power gating

Power down lasers when not needed Relaxed turn-off to facilitate opportunistic senders

• Adaptive mechanism to determine stay-on time Monitors interconnect activity

• Result Highlights 24 – 77% energy savings on real workloads 1.1 – 2x speedup Within 2-6% of a perfect (ideal) scheme

[ISLPED-2014]

© Hardavellas29

SWMR Optical Bus

1101010110001011

1101010110001011

11

1111 11

Router 0(Home)

Router 1 Router N-2 Router N-1

Data Bus

Reservation Channel

R0R1

D0D1…………

© Hardavellas30

MWSR Optical Bus

1101010110001011

1101010110001011

1

Router 0 Router 1 Router N-2Router N-1

(Home)

Token Stream

Data Bus

T0T1

D0D1…………

EcoLaser Design - MWSR

Laser turn-on request via token stream Laser Turn On31 © Hardavellas

© Hardavellas32

Adaptive Laser Control• The laser stays on for K cycles each time it turns on• Static-K laser control

K is statically set, stays fixed across time We model a range of static schemes

• Adaptive laser control Approximate ideal value of K at each time interval Monitor the laser turn-on signals Too many increase K higher performance Too few lower K higher energy savings

Balance energy savings with interconnect performance

© Hardavellas33

Interconnect Performance - MWSR

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

10

20

30

40

50

601 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate (packet/cycle)

La

ten

cy

(p

roc

. c

yc

les

)

Static: saturate early (56% throughput for Static-1) Adaptive: provides max interconnect throughput

© Hardavellas34

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.20.40.60.8

11.21.41.61.8 1 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate (packet/cycle)

No

rm.

En

erg

y /

Fli

t

Static: fail to capture all energy savings Adaptive: within 3% of the Perfect scheme

Interconnect Energy - MWSR

© Hardavellas35

Fm

m

Mo

ldyn

Ba

rne

s

To

mca

tv

Ap

pb

t

Oce

an

Em

3d

Ave

rag

e

0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

00.5

11.5

22.5

No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect

Sp

eed

up

Higher laser power -> higher performance impact Adaptive: 2x speedup at 29% laser energy (within 6% Perfect)

EcoLaser Speedup – radix-64 MWSR

MeasuredInjection

Rate

© Hardavellas36

N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P

Moldyn Fmm ……… Ocean Em3d Average0.02 0.04 ……… 0.14 0.18 0.1

00.5

11.5

22.5

3

Laser Modulation Ring_Heating Memory_DynMemory_Leak Core_Dyn Core_Leak

No

rm.

En

erg

y X

De

lay

Impact on Energy × Delay – radix-64 MWSR

...

...

Radix-64 impractical to implement without laser control Adaptive: 3.8x lower EDP, within 7% of Perfect

© Hardavellas37

EcoLaser Summary• Power down lasers when not needed

Relaxed turn-off to facilitate opportunistic senders Monitor & adapt to interconnect activity

• Result Highlights 24 – 77% energy savings on real workloads 1.1 – 2x speedup Within 2-6% of a perfect (ideal) scheme

• But Complicated token scheme Can do much better

Yes, we can improve 2x over this “Perfect” scheme

© Hardavellas38

Outline• Introduction• Background• Scalable Multi-Chip System Design with Silicon Photonics

Galaxy Architecture Experimental Results

• Energy-Proportional Photonic Interconnects EcoLaser

➔ ProLaser• Conclude

DFB Laser

DFB Laser

DFB Laser…

λ1

λ2

λN

Data-O

nlyBits

λ1 λ2 … λN

λ1 λ2 … λN

…DFB Laser

DFB Laser

DFB Laser

…λ1

λ2

λN

Comm

onBits

λ1 λ2 … λN

λ1 λ2 … λN

Data Bus

ProLaser: Segregate Data from Control

39 © Hardavellas

Switch on only the necessary interconnect portion

[IEEE Photonics - 2014]

© Hardavellas40

ProLaser: Proactively Switch On LaserL2 Cache Requests& Replies

Switch Allocator& VC Allocator

…Rese

rvati

on

Chan

nels

Dat

a Ch

anne

ls

L

L

L

L

L

LR1 R2 RN

CH1

CHN

CH2

RCHN

RCH2RCH1

LasersInject 1

Inject C

… Eject 1

Eject C

Data Channel i

Data Channel 1

Data Channel N

O/E

O/E

Laser Controller

VC0

VC1

VC2

VC0

VC1

VC2

E/O

E/O

Reservation Channel i

…E/O

Common Channel i

L2 Cache Slice

Bloom Filter

Bloom filters + coherence protocol predict accesses

© Hardavellas41

ProLaser: Interconnect Performance

ProLaser almost perfect saturation; EcoLaser saturates early

© Hardavellas42

ProLaser: Interconnect Energy

ProLaser saves 49-88% of laser power ProLaser is ~2x better than EcoLaser; 2-6% of Perfect

© Hardavellas43

ProLaser: Performance Impact

60% speedup over No-Ctrl; 40% over flattened buttefly

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6 Flat-ButterflyNo-CtrlAverageSimpleEcoLaserProLaserPerfect No-Ctrl-OffChipPower_Eq-OffChipSimple-OffChipEcoLaser-OffChipProLaser-OffChipPerfect-OffChip

Sp

ee

du

p

© Hardavellas44

Sensitivity to Laser Turn-on Delay

Tolerates high laser delays (7x increase 15% penalty)

© Hardavellas45

Conclusions

• Galaxy breaks free of typical physical constraints “Virtual chips” with the performance of unlimited designs Processor disintegration: 3.2x speedup, 2.8x EDP (7x max) Macrochip integration: 6.8x speedup, 6x lower power Provides system design flexibility

• Adaptive Laser Control Makes power-hungry photonic interconnects practical Saves 49-88% of the laser energy Provides 50-70% speedup

46

Thank You!

Questions?

© Hardavellas

© Hardavellas47

TECHNOLOGY BACKUP SLIDES

© Hardavellas48

Chip Power Scaling

Chip power does not scale

[Azizi 2010]

© Hardavellas49

Demand for High-Performance Computing Grows

• Large Hadron Collider in March’11: 1.6PB data (Tier-1)• Large Synoptic Array Survey Telescope: 30 TB/night

i.e., 2x Sloan Digital Sky Surveys/night Sloan: more data than entire history of astronomy before it

Data grows faster than Moore’s Law

More data more computing power to process them

© Hardavellas50

Voltage Scaling Has Slowed

In last decade: 13x transistors but 30% lower voltage Cannot run all transistors fast enough

2003 2006 2009 2012 2015

0.1

1

10

100

Transistor Scaling (Moore's Law)

Supply Voltage

Year

Sca

lin

g F

acto

r

© Hardavellas51

Pin Bandwidth Scaling

[TU Berlin]

Cannot feed cores with data fast enough to keep them busy

2003 2006 2009 2012 20150

2

4

6

8

10

12

14

Transistor Scaling (Moore's Law)

Pin Bandwidth

Year

Sca

ling

Fac

tor

© Hardavellas52

Electrical vs. Photonic Links

[Nitta et al., 2013]

© Hardavellas

Electrical (SerDes) vs. SOI Waveguides vs. Fibers

0.01 0.1 1 10 1000.01

0.1

1

10

100

Distance (cm)

Late

ncy

(ns)

0.01 0.1 1 10 1000.01

0.1

1

10

100

Distance (cm)

Ener

gy (p

J/bi

t)

0 5 10 15 20 25 30 35 400.001

0.010.1

110

100

SerDes LinkSOI WaveguideFiber

Distance (cm)

Ener

gy x

Lat

ency

(p

J*ns

/bit)

© Hardavellas54

SWMR vs. MWSR Crossbar Single-Writer Multiple-Reader• Broadcast bus• All receivers always read• On-rings optical loss• High laser power

Multiple-Writer Single-Reader• Only one receiver reads• Only one ring is on low loss• Low laser power• Needs arbitration

© Hardavellas55

GALAXY BACKUP SLIDES

© Hardavellas56

Single Chiplet Connectivity

Galaxy MWSR Optical Crossbar

© Hardavellas57

MWSR avoids broadcast data bus, but requires arbitration

© Hardavellas58

Token-Based ArbitrationVC Token

back traversal

VC Token forward traversal

Data Channel

8 cycles on average for token arbitration (5 chiplets)

© Hardavellas59

Modeling Infrastructure

Flexus 4.0Booksim 2.0

Cycle Accurate Full System Simulation

Power Calculations with Runtime Statistics

McPat 0.8 DSENT

AnalyticalModel +

HotSpot5.0

FloTherm9.2

Single Chip Design

Multi-Chip Design

Cores,Cache,MCs

Interconnect

DRAMSim 2.0

Thermal Modeling

+

Operating Temperature

Accurate Lekageand Dynamic

Power

DVFS for Temperature

Limiting

3D-stack model

SimFlex sampling95% confidence

photonic-layerring heating

© Hardavellas60

Architectural Parameters

© Hardavellas61

Nanophotonic Parameters

© Hardavellas62

Load Latency (uniform random traffic)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

10

20

30

40

50

60

70

80

CMeshExp

Corona

Firefly

Galaxy

Injection Rate

Avg.

Lat

ency

(cyc

les)

© Hardavellas63

Load-Latency Curves

16 tokens provide optimal buffer depth

© Hardavellas64

Impact of Disintegration: Speedup Over “Unlimited”

M C F G M C F G M C F G M C F G M C F GBarnes Fmm Moldyn Water Average

0

0.2

0.4

0.6

0.8

1

1.2

Unconstrained

BW-constrained

P-constrained

(P+BW)-constrained

Galaxy

Compute-intensive Workloads

Spee

dup

Galaxy matches the performance of “unlimited” designs

M=Concentrated Mesh w/Exp.Links, C=Corona, F=Firefly, G=Galaxy

© Hardavellas65

Performance Against “Realistic” DesignsAp

pbt

Em3d

Oce

anTo

mca

tvBa

rnes

Fmm

Mol

dyn

Wat

erAv

erag

eAp

pbt

Em3d

Oce

anTo

mca

tvBa

rnes

Fmm

Mol

dyn

Wat

erAv

erag

eAp

pbt

Em3d

Oce

anTo

mca

tvBa

rnes

Fmm

Mol

dyn

Wat

erAv

erag

e

Conventional Memory Optically Connected Memory

3D Stacked Memory

012345678

CMeshExp Corona Firefly Galaxy

Spee

dup

• Realistic: within power and bandwidth envelopes• Galaxy chiplets within 66 - 88oC chiplets run at max speed

Galaxy: 2.4x - 3.2x speedup on average (3.4 max) Galaxy: 2.4x-2.8x smaller EDP on average (up to 7.1x smaller)

© Hardavellas66

Comparison Against Multi-Chip Alternatives

© Hardavellas67

Tapered vs. Optical Proximity Couplers

6x less laser power than Oracle Macrochip with demonstrated couplers

0 1 2 3 4 5 6 70.01

0.1

1

10Macrochip (0.05 dB/cm)

OPC passive-aligned

OPC active-aligned

OPC predicted

Galaxy

SiON cladding

SU-8 cladding

Coupler Loss (dB)

Las

er P

ower

per

wav

e-le

ngth

(mW

)

© Hardavellas68

Laser Power Sensitivity to Optical Parameters

Coupler Loss

Off-Ring LossWaveguide & Filter Drop Loss

Modulator Insertion Loss

Highly sensitive to coupler loss, insensitive to other losses

© Hardavellas69

Sensitivity to Fiber Density

• 116mm2 chiplets 43mm along the chip edge• Enough room for 172 fibers @ 250μm pitch

128 fibers: within 3% of max performance

Appbt

Em3d

Ocean

Tomcatv

Barnes

Fmm

Moldyn

Water

Average

00.20.40.60.8

11.21.41.61.8

28 fibers 16 fibers 32 fibers 64 fibers 128 fibers 256 fibers 512 fibers

Spee

du

p

© Hardavellas70

Energy-Delay Product

Galaxy: 2.4x-2.8x smaller EDP on average (7.1x max)

© Hardavellas71

Energy per Instruction

Galaxy: 12-20% lower energy/instruction on average (up to 2.3x less)

© Hardavellas72

9-chiplet Galaxy 2D

Cooling 9 chiplets with passive heatsinks

1100C

© Hardavellas73

ECOLASER BACKUP SLIDES

Laser Power Consumption

Modulator Insertion

Loss

Off-Ring Loss

Waveguide Loss

Filter Drop Loss

10x Wall-plug Laser

Power

74 © Hardavellas

EcoLaser Design - SWMR

Message in injection buffers Laser Turn On

75 © Hardavellas

© Hardavellas76

EcoLaser Token Design• Traditional token provides arbitration only

1 bit is sufficient

• EcoLaser token needs to T: Facilitate arbitration L: Indicate light presence on data bus S: Provide laser turn-on signal

Check if the laser is on first, before sending the turn on signal

Laser turn-on signal should trail T/L by one cycle Denote dedicated slot (to avoid starvation)

T

L

S

T

© Hardavellas77

EcoLaser 3-bit Token and Laser Controller FSM

© Hardavellas78

EcoLaser Writer Node FSM

MWSR Laser Control Example

Token stream

Data stream

R3

R2

R1

R0

Router

Laser Source

R0 R1 R2 R3

T3

1 10

T2

1 10

T1

1 10

T0

1 10

T7

1 10

T6

1 10

T5

1 10

T4

1 10

D6 D5 D4 D3D2 D1 D0 D7Off

79 © Hardavellas

R0 R1 R2 R3

T4

1 10

T3

1 10

T2

1 10

T1

1 10

T0

1 10

T7

1 10

T6

1 10

T5

1 10

D7 D6 D5 D4D3 D2 D1 D0Off

t = 1

MWSR Laser Control Example

80 © Hardavellas

0

R0 R1 R2 R3

T5

1 10

T4

1 10

T3

1 10

T2

1 10

T1

1 10

T0

1 10

T7

00

T6

1 10

D0 D7 D6 D5D4 D3 D2 D1Off

t = 2

MWSR Laser Control Example

81 © Hardavellas

0

R0 R1 R2 R3

T6

1 10

T5

1 10

T4

1 10

T3

1 10

T2

1 10

T1

1 10

T0

00

T7

1 00

D1 D0 D7 D6D5 D4 D3 D2Off

t = 3

MWSR Laser Control Example

82 © Hardavellas

01

R0 R1 R2 R3

T7

1 10

T6

1 10

T5

1 10

T4

1 10

T3

1 10

T2

1 10

T1

0

T0

1 00

D2 D1 D0 D7D6 D5 D4 D3On

t = 4

MWSR Laser Control Example

83 © Hardavellas

R0 R1 R2 R3

T0

1 10

T7

1 10

T6

1 10

T5

1 10

T4

1 10

T3

1 10

T2

0

T1

0

D3 D2 D1 D0D7 D6 D5 D4On

t = 5

MWSR Laser Control Example

011 0

84 © Hardavellas

R0 R1 R2 R3

T1

1 10

T0

1 10

T7

1 10

T6

1 10

T5

1 10

T4

1 10

T3

0

T2

0

D4 D3 D2 D1D0 D7 D6 D5On

t = 6

MWSR Laser Control Example

011 0

85 © Hardavellas

011 0

R0 R1 R2 R3

T2

1 10

T1

1 10

T0

1 10

T7

1 10

T6

1 10

T5

1 10

T4

0

T3

0

D5 D4 D3 D2D1 D0 D7 D6On

t = 7

MWSR Laser Control Example

86 © Hardavellas

R0 R1 R2 R3

T3

1 01

T2

1 10

T1

1 10

T0

1 10

T7

1 10

T6

1 10

T5 T4

D6 D5 D4 D3D2 D1 D0 D7On

t = 8

MWSR Laser Control Example

011 00 0

87 © Hardavellas

R0 R1 R2 R3

T4

1 11

T3

1 01

T2

1 10

T1

1 10

T0

1 10

T7

1 10

T6 T5

D7 D6 D5 D4D3 D2 D1 D0On

t = 9

MWSR Laser Control Example

011 00 0

88 © Hardavellas

R0 R1 R2 R3

T5

1 11

T4

1 11

T3

1 01

T2

1 10

T1

1 10

T0

1 10

T7 T6

D0 D7 D6 D5D4 D3 D2 D1On

t = 10

MWSR Laser Control Example

011 00 0

89 © Hardavellas

R0 R1 R2 R3

T6

1 11

T5

1 11

T4

1 11

T3

1 01

T2

1 10

T1

1 10

T0 T7

D1 D0 D7 D6D5 D4 D3 D2On

t = 11

MWSR Laser Control Example

011 00 0

90 © Hardavellas

R0 R1 R2 R3

T7

1 11

T6

1 11

T5

1 11

T4

1 11

T3

1 01

T2

1 10

T1 T0

D2 D1 D0 D7D6 D5 D4 D3On

t = 12

MWSR Laser Control Example

011 00 0

91 © Hardavellas

R0 R1 R2 R3

T0

1 11

T7

1 11

T6

1 11

T5

1 11

T4

1 11

T3

1 01

T2 T1

D3 D2 D1 D0D7 D6 D5 D4On

t = 13

MWSR Laser Control Example

011 00 0

92 © Hardavellas

R0 R1 R2 R3

T1

1 10

T0

1 11

T7

1 11

T6

1 11

T5

1 00

T4

1 11

T3 T2

D4 D3 D2 D1D0 D7 D6 D5On

t = 14

MWSR Laser Control Example

011 00 0

93 © Hardavellas

01

R0 R1 R2 R3

T2

1 10

T1

1 10

T0

1 11

T7

1 11

T6

1 11

T5

1 00

T4

1

T3

1 10

D5 D4 D3 D2D1 D0 D7 D6Off

t = 15

MWSR Laser Control Example

94 © Hardavellas

R0 R1 R2 R3

T3

1 10

T2

1 10

T1

1 10

T0

1 11

T7

1 11

T6

1 11

T5

1 00

T4

1 11

D6 D5 D4 D3D2 D1 D0 D7Off

t = 16

MWSR Laser Control Example

95 © Hardavellas

R0 R1 R2 R3

T4

1 10

T3

1 10

T2

1 10

T1

1 10

T0

1 11

T7

1 11

T6

1 11

T5

1 00

D7 D6 D5 D4D3 D2 D1 D0Off

t = 17

MWSR Laser Control Example

96 © Hardavellas

1

R0 R1 R2 R3

T5

1 10

T4

1 10

T3

1 10

T2

1 10

T1

1 10

T0

1 11

T7

11

T6

1 11

D0 D7 D6 D5D4 D3 D2 D1Off

t = 18

MWSR Laser Control Example

97 © Hardavellas

© Hardavellas98

EcoLaser Nanophotonic Parameters

© Hardavellas99

Interconnect Performance – radix-16 MWSR

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

10

20

30

40

50

60 1 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate (packet/cycle)

Late

ncy (

pro

cesso

r cycle

s)

Static: saturate early (56% throughput for Static-1) Adaptive: provides max interconnect throughput

© Hardavellas100

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.20.40.60.8

11.21.41.61.8 1 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate (packet/cycle)

No

rm.

En

erg

y /

Flit

Static: fail to capture all energy savings Adaptive: within 3% of the Perfect scheme

Interconnect Energy – radix-16 MWSR

Interconnect Performance – radix-16 SWMR

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

10

20

30

40

50

601 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate

Late

ncy (

pro

c.

cycle

s)

101 © Hardavellas

Interconnect Energy – radix-16 SWMR

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.2

0.4

0.6

0.8

1

1.2 1 cyc

2 cyc

3 cyc

5 cyc

10 cyc

30 cyc

100 cyc

Perfect

Adaptive

No-ControlInjection Rate

No

rmalized

En

erg

y /

Flit

102 © Hardavellas

© Hardavellas103

Fm

m

Mo

ldyn

Ba

rne

s

To

mca

tv

Ap

pb

t

Oce

an

Em

3d

Ave

rag

e

0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

0

0.4

0.8

1.2

No-Ctrl Power_Eq Static-1Static-10 Adaptive Perfect

Sp

ee

du

p

Laser power savings leave more power for cores faster Adaptive: 1.1x speedup at 50% laser energy (within 2% Perfect)

EcoLaser Speedup – radix-16 MWSR

MeasuredInjection

Rate

© Hardavellas104

Fm

m

Mo

ldyn

Ba

rne

s

To

mca

tv

Ap

pb

t

Oce

an

Em

3d

Ave

rag

e

0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

0

0.4

0.8

1.2

No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect

Sp

eed

up

Laser power savings leave more power for cores faster Adaptive: 5% speedup at 50% laser energy (within 2% Perfect)

EcoLaser Speedup – radix-16 MWSR

MeasuredInjection

Rate

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

0

0.4

0.8

1.2

No-Ctrl Power_Eq Static-1 Adaptive Perfect

Sp

eed

up

EcoLaser Speedup – Radix-16 SWMR

105 © Hardavellas

© Hardavellas106

Fm

m

Mo

ldyn

Ba

rne

s

To

mca

tv

Ap

pb

t

Oce

an

Em

3d

Ave

rag

e

0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

0

0.4

0.8

1.2

No-Ctrl Power_Eq Static-1Static-10 Adaptive Perfect

Sp

ee

du

p

Higher laser power -> higher performance impact Adaptive: 2x speedup at 29% laser energy (within 6% Perfect)

EcoLaser Speedup – radix-64 MWSR

MeasuredInjection

Rate

© Hardavellas107

EcoLaser Speedup for Radix-64 MWSR

EcoLaser Power Savings ~2x Speedup

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

0

0.4

0.8

1.2

1.6

No-Ctrl Power_Eq Static-1 Adaptive Perfect

Sp

eed

up

EcoLaser Speedup – Radix-64 SWMR

108 © Hardavellas

© Hardavellas109

EcoLaser Speedup for Radix-64 SWMR

EcoLaser Power Savings ~2x Speedup

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

00.20.40.60.8

11.2

No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect

Sp

eed

up

Static-1 is 19% slower than No-Ctrl on average (30% maximum).Adaptive saves 45% laser energy and it is 4.8% slower than Perfect.

Impact of Latency Overhead

110 © Hardavellas

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

0

0.2

0.4

0.6

0.8

1

1.2

No-Ctrl Power_Eq Static-1 Adaptive Perfect

Sp

eed

up

Impact of Latency Overhead

111 © Hardavellas

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

0

0.2

0.4

0.6

0.8

1

1.2

No-Ctrl Power_Eq Static-1 Static-10 Adaptive Perfect

Sp

eed

up

Impact of Latency Overhead

112 © Hardavellas

Fm

m

Mold

yn

Barn

es

Tom

catv

Appbt

Oce

an

Em

3d

Avera

ge

0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

0

0.2

0.4

0.6

0.8

1

1.2

No-Ctrl Power_Eq Static-1 Adaptive Perfect

Sp

eed

up

Impact of Latency Overhead

113 © Hardavellas

N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P

Fmm Moldyn ……… Ocean Em3d Average0.04 0.12 ……… 0.7 0.8 0.4

0

0.2

0.4

0.6

0.8

1

Laser Modulation Ring_Heating Memory_DynMemory_Leak Core_Dyn Core_Leak

Norm

. En

erg

y x

Dela

y

Energy × Delay – radix-16 MWSR

No-Ctrl: more energy efficient than Static-1, Power_Eq Adaptive: 13% lower EDP, within 2% of Perfect

...

...

114 © Hardavellas

N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P

Fmm Moldyn

Barnes Tomcatv

Appbt Ocean Em3d Av-er-age0.08 0.16 0.21 0.4 0.41 0.51 0.72 0.4

00.10.20.30.40.50.60.70.80.9

Laser Modulation Ring_Heating Memory_Dyn Memory_Leak

No

rm.

En

erg

y x D

ela

y

Energy × Delay – radix-16 SWMR

115 © Hardavellas

© Hardavellas116

N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P N E 11

0 A P

Moldyn Fmm ……… Ocean Em3d Average0.02 0.04 ……… 0.14 0.18 0.1

00.5

11.5

22.5

3

Laser Modulation Ring_Heating Memory_DynMemory_Leak Core_Dyn Core_Leak

No

rm.

En

erg

y X

De

lay

Impact on Energy × Delay – radix-64 MWSR

...

...

Radix-64 impractical to implement without laser control Adaptive: 3.8x lower EDP, within 7% of Perfect

N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P N E 1 A P

Fmm Moldyn

Barnes Tomcatv

Appbt Ocean Em3d Av-er-age0.02 0.04 0.05 0.1 0.11 0.14 0.18 0.1

0

0.5

1

1.5

2

2.5

3

Laser Modulation Ring_Heating Memory_Dyn Memory_LeakCore_Dyn Core_Leak

No

rm.

En

erg

y x D

ela

y

Energy × Delay – radix-64 SWMR

117 © Hardavellas

Backup Slides• Why not use Off-Chip Laser?

Pro: Higher eff. & off the chip power budget Con: Coupler Loss and intrinsic loss*Conclusion: Off-chip laser source might increase the total

system power consumption.On-Chip laser source with control is more efficient than off-

chip lasers.Ge-based lasers manufactured footprint 1.6um x 4mm,could be smaller.

118 © Hardavellas

Experimental Methodology

CMP Size 64 cores, 480 mm2

Processing Core ULTRASPARC III ISA, up to 5Ghz, OoO,4-wide dispatch/retirement, 96-entry ROB

L1 Cache Split I/D, 64KB 2-way, 2-cycle load-to-use, 2 ports, 64-byte blocks, 32 MSHRs, 16-entry victim cache

L2 Cache Shared, 512 KB per core, 16 way, 64-byte blocks, 14 cycle-hit, 32 MSHRs, 16-entry victim cache

Memory Controller One per 4 cores, 1 channel per Memory ControllerRound-robin page interleaving

Main Memory Optically connected memory [2], 10ns access

Network SWMR and MWSR crossbars, radix-16 and -64300-bit wide links @ 10GHz, 20 flit deep buffers, 3 cycle router delay

119 © Hardavellas

Radix-16 Radix-64

DWDM 64 16

WG Loss 3 dB 3 dB

Non-Linearity 1 dB 1 dB

Modulator Ins. 0.5 dB 0.5 dB

Ring Through 10.24 dB 10.24 dB

Filter Drop 1.2 dB 1.2 dB

Photodetector 0.1 dB 0.1 dB

Total Loss 16.04 dB 16.04 dB

Laser Power 0.401 mW 0.401 mW

Total Laser Power

20.1W 78.1W

Laser Power Consumption

120 © Hardavellas

Radix-16 Area Radix-64

DWDM 64 16

WG 80 160 mm2 1200 300 mm2

Ring Resonators

77K 7.7 mm2 1.2 M 100 mm2

Lasers 4800 34 mm2 19K 125 mm2

Optical Component Count

121 © Hardavellas

Workloads• Fmm: Input 128K• Moldyn: 15, 20, 3.2 M• Barnes: Input 64K• Tomcatv: 4096, 10• Appbt: in.24x24x24x8bit• Ocean: 1026, 9600• Em3d: 400K, 2, 15, 5

122 © Hardavellas

© Hardavellas123

PROLASER BACKAUP SLIDES

Data-O

nly Bits

DFB

DFB

DFB

DFB

DFB

DFB

……

Laser Switch

λ1

λ2

λN

λ1

λ2

λN

λ1 … λN

λ1 … λN

λ1 λ2 … λN

λ1 λ2 … λN

λ1 λ2 … λN

λ1 λ2 … λN

λ & λ

……

Comm

on Bits

Data Bus

Network-on-chipOff-chip laser die

Optical Fiber

SOI Waveguides

Off-Chip Ge-based Laser Source

© Hardavellas125

ProLaser – Architectural Parameters

© Hardavellas126

ProLaser – Nanophotonic Parameters

top related