galaxy: high-performance energy-efficient multi-chip architectures using photonic interconnects...

44
Galaxy: High-Performance Energy- Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group Northwestern University Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik

Upload: nickolas-emans

Post on 28-Mar-2015

217 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

Galaxy: High-Performance Energy-Efficient

Multi-Chip Architectures Using Photonic Interconnects

Nikos HardavellasPARAG@N – Parallel Architecture Group

Northwestern University

Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik

Page 2: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas2

Chip Power Scaling

Chip power does not scale

[Azizi 2010]

Page 3: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas3

Voltage Scaling Has Slowed

In last decade: 13x transistors but 30% lower voltage Cannot run all transistors fast enough

2003 2006 2009 2012 20150

2

4

6

8

10

12

14

Transistor Scaling (Moore's Law)

Year

Sca

lin

g F

acto

r

Page 4: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas4

Pin Bandwidth Scaling

[TU Berlin]

Cannot feed cores with data fast enough to keep them busy

2003 2006 2009 2012 20150

2

4

6

8

10

12

14

Transistor Scaling (Moore's Law)

Pin Bandwidth

Year

Sca

ling

Fac

tor

Page 5: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas5

Data Scaling• SPEC, TPC datasets growth:

faster than Moore• Same trends in scientific,

personal computing• Large Hadron Collider

March’11: 1.6PB data (Tier-1)• Large Synoptic Survey Telescope

30 TB/night 2x Sloan Digital Sky Surveys/day

Sloan: more data than entire history of astronomy before it

2004 2007 2010 2013 2016 20190

5

10

15

20

OS Dataset Scaling (Muhrvold's Law) Transistor Scaling (Moore's Law) TPC Dataset (Historic)

Year

Sca

ling

Fac

tor

More data more computing power to process them

Page 6: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas6

Galaxy: Optically-Connected Disintegrated Processors

• Physical constraints limit single-chip designs Area, Yield, Power, Bandwidth

• Multi-chip designs break free of these limitations Processor disintegration Macro-chip integration

[Pan, WINDS 2010]

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

Page 7: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas7

Outline• Introduction

➔ Background• Galaxy Architecture• Experimental Methodology• Results

Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude• Overview of Other Research

Page 8: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas8

Nanophotonic Components

off-chiplaser

source

coupler

resonant modulators

resonant detectors

Ge-doped

waveguide

Selective: couple optical energy of a specific wavelength

Page 9: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas9

Modulation and Detection

11010101

11010101

10001011

10001011

16 - 64 wavelengths DWDM5 - 20μm waveguide pitch

10Gbps per link

8 Tbps/mm bandwidth density or more !!!

Page 10: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas10

Outline• Introduction• Background

➔ Galaxy Architecture• Experimental Methodology• Results

Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude• Overview of Other Research

Page 11: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

Galaxy Architecture

© Hardavellas11

Off-ChipLaser

ElectricalRing

Network

WaveguideBundle

Off-ChipLaser

Read

Write

Couple

UpstreamChannel

DownstreamChannel

Electrical InputPorts Electrical

OutputPorts

OpticalOutputPorts

Electrical VC/SwitchAllocator

Optical TokenArbiter

Optical Fiber Bundle

Couplers

Chiplet 1

Chiplet 2Chiplet 3

Chiplet 4

( a ) ( b ) ( c )

Chiplet 0

Page 12: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas12

Routing Example

Page 13: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

Galaxy Architecture

© Hardavellas13

Off-ChipLaser

ElectricalRing

Network

WaveguideBundle

Off-ChipLaser

Read

Write

Couple

UpstreamChannel

DownstreamChannel

Electrical InputPorts Electrical

OutputPorts

OpticalOutputPorts

Electrical VC/SwitchAllocator

Optical TokenArbiter

Optical Fiber Bundle

Couplers

Chiplet 1

Chiplet 2Chiplet 3

Chiplet 4

( a ) ( b ) ( c )

Chiplet 0

Page 14: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

Galaxy MWSR Optical Crossbar

© Hardavellas14

More energy-efficient than SWMR at that scale MWSR avoids broadcast bus, but requires arbitration

Off-ChipLaser

ElectricalRing

Network

WaveguideBundle

Off-ChipLaser

Read

Write

Couple

UpstreamChannel

DownstreamChannel

Electrical InputPorts Electrical

OutputPorts

OpticalOutputPorts

Electrical VC/SwitchAllocator

Optical TokenArbiter

Optical Fiber Bundle

Couplers

Chiplet 1

Chiplet 2Chiplet 3

Chiplet 4

( a ) ( b ) ( c )

Chiplet 0

Page 15: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas15

Token-Based ArbitrationVC Token

back traversal

VC Token forward traversal

Data Channel

8 cycles on average for token arbitration (5 chiplets)

Page 16: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas16

Dense Off-Chip Coupling

• Dense optical fiber array [Lee, OSA/OFC/NFOEC 2010]

• ~3.8dB loss, 8 Tbps/mm demonstrated• Misalignment <0.7μm, 0.4μm, 0.7μm> loss <1 dB

Loss comparable to optical proximity couplers

Page 17: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas17

Nanophotonic Parameters

Page 18: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas18

Outline• Introduction• Background• Galaxy Architecture

➔ Experimental Methodology• Results

Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude• Overview of Other Research

Page 19: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas19

Architectural Parameters

Page 20: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas20

Modeling Infrastructure

Flexus 4.0Booksim 2.0

Cycle Accurate Full System Simulation

Power Calculations with Runtime Statistics

McPat 0.8 DSENT

AnalyticalModel +

HotSpot5.0

FloTherm9.2

Single Chip Design

Multi-Chip Design

Cores,Cache,MCs

Interconnect

DRAMSim 2.0

Thermal Modeling

+

Operating Temperature

Accurate Lekageand Dynamic

Power

DVFS for Temperature

Limiting

3D-stack model

SimFlex sampling95% confidence

photonic-layerring heating

Page 21: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas21

Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results

➔ Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude• Overview of Other Research

Page 22: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas22

Load-Latency Curves

16 tokens provide optimal buffer depth

Page 23: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas23

Laser Power Sensitivity to Optical Parameters

Coupler Loss

Off-Ring LossWaveguide & Filter Drop Loss

Modulator Insertion Loss

Highly sensitive to coupler loss, insensitive to other losses

Page 24: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas24

Sensitivity to Fiber Density

• 116mm2 chiplets 43mm along the chip edge• Enough room for 172 fibers @ 250μm pitch

128 fibers: within 3% of max performance

Page 25: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas25

Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results

Sensitivity Studies ➔ Single-Chip Comparisons (Processor Disintegration)

Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude• Overview of Other Research

Page 26: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas26

Performance Against “Unlimited” Designs

• Unlimited power (max speed of design, irrespective of temp.)• Mesh_20MC & Corona_20MC

Also unlimited bandwidth (20 MCs per chip, 5x more pins)

Galaxy matches the performance of “unlimited” designs

Page 27: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas27

Performance Against Realistic Designs

• Realistic: within power and bandwidth envelopes• Galaxy chiplets within 66.2oC chiplets run at max speed

Galaxy: 2.2x speedup on average (3.4 max)

Page 28: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas28

Energy-Delay Product

• Cool chiplets minimize leakage

Galaxy: 2.4x-2.8x smaller EDP on average (6.8x max)

Page 29: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas29

Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results

Sensitivity Studies Single-Chip Comparisons (Processor Disintegration)

➔ Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude• Overview of Other Research

Page 30: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas30

Comparison Against Multi-Chip Alternatives

Page 31: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas31

Comparison Against Multi-Chip Alternatives

Fiber

Galaxy: 2.5x over Oracle Macrochip (6.8x max)

Page 32: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas32

Tapered vs. Optical Proximity Couplers

6x less laser power than Oracle Macrochip with demonstrated couplers

Page 33: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas33

Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results

Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration)

➔ Thermal Modeling• Conclude• Overview of Other Research

Page 34: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas34

80-core 5-chiplet Galaxy Thermal CFD Modeling

8cm spacing allows cooling with cheap passive heatsinks

88.20C

Page 35: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas35

9-chiplet Dense Array (Oracle Macrochip)

Tight arrangement points to liquid cooling requirement

2490C

Page 36: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas36

9-chiplet Galaxy 2D

Cooling 9 chiplets with passive heatsinks

1100C

Page 37: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas37

9-chiplet Galaxy 3D

Flexible fibers allow “virtual chip” to break free of 2D planar designs

83.60C

Page 38: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas38

Galaxy Summary• “Virtual chips” with the performance of unlimited designs• Breaks free of typical physical constraints

Large aggregate area Improved yield (break-even point : 60% yield for photonics) Tb/s/mm bandwidth density Pushes back power wall

• Processor disintegration 2.2x avg. speedup (3.4 max) 2.4x-2.8x avg. smaller EDP (6.8x max)

• Macrochip integration 2.5x speedup over Oracle Macrochip (6.8x max) 6x more power efficient links

Page 39: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas39

Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results

Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling

• Conclude ➔ Overview of Other Research

Page 40: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas40

Energy is Shaping the IT Industry#1 of Grand Challenges for Humanity in the Next 50 Years

[Smalley Institute for Nanoscale Research and Technology, Rice U.]

• Computing worldwide: ~408 TWh in 2010 [Gartner]

• Datacenter energy consumption in US ~150 TWh in 2011 [EPA] 3.8% of domestic power generation, $15B CO2-equiv. emissions ≈ Airline Industry (2%)

• Carbon footprint of world’s data centers ≈ Czech Republic• Exascale @ 20MW: 200x lower energy/instr. (2nJ 10pJ)

3% of the output of an average nuclear plant!• 10% annual growth on installed computers worldwide [Gartner]

Exponential increase in energy consumption

Page 41: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

• Integer add: 0.5pJ; FP-FMA: 50pJ. Where does energy go? Data movement: 1200pJ across 400mm2 chip, 16000pJ memory

Elastic caches: minimize data transfers through adapting caches to workload demands [ISCA’09, IEEEMicro’10, DATE’12]

Processing: ~1500pJ to schedule the operationSeaFire: specialized computing on dark silicon to eliminate general-purpose computing’s overheads [IEEEMicro’11, USENIX-Login’11]

Circuits: wide voltage guardbands Low voltages, process variation timing errors computing errors

Elastic fidelity: allow errors at select code/data segments to save energy while maintaining fidelity contract with user [CoRR abs/1111.4279]

• Chips fundamentally limited by physical constraints. Need to break free.Galaxy: processor disintegration/macrochip integration using photonic interconnects [WINDS’10]

Overall Focus: Energy-Efficient Computing

Page 42: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

© Hardavellas42

Thank You!

Page 43: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

Overcoming Data Movement and Processing Overheads• Elastic caches: adapt cache to workload’s demands

Significant energy on data movements and coherence requests Co-locate data, metadata, and computation Decouple address from placement location

Capitalize on existing OS events simplify hardware Cut on-chip interconnect traffic by half

• Seafire: specialized computing on dark silicon Repurpose dark silicon to implement specialized cores Application cherry-picks a few cores, rest of chip is powered off Vast unused area many specialized cores likely to find good matches

12x lower energy (conservative)

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

PE PE PE PE PE PE PE PE PE PE

Macrochip

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

PE PE PE PE PE PE PE PE PE PE

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

P M P M P M P M

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

R R R R R R R

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

PE PE PE PE PE

Multiple Chiplets

Processing Element

43 © Hardavellas

Page 44: Galaxy: High-Performance Energy-Efficient Multi-Chip Architectures Using Photonic Interconnects Nikos Hardavellas PARAG@N – Parallel Architecture Group

• Elastic fidelity: selectively trade accuracy for energy We don’t always need 100% accuracy, but HW always provides it Language constructs specify required fidelity for code/data segments Steer computation to exec/storage units with appropriate fidelity and

lower voltage 35% lower energy

Overcoming Voltage Guardbands

44 © Hardavellas

No errors 10% errors