galaxy: high-performance energy-efficient multi-chip architectures using photonic interconnects...
TRANSCRIPT
Galaxy: High-Performance Energy-Efficient
Multi-Chip Architectures Using Photonic Interconnects
Nikos HardavellasPARAG@N – Parallel Architecture Group
Northwestern University
Team: Y. Demir, P. Yan, S. Song, J. Kim, G. Memik
© Hardavellas2
Chip Power Scaling
Chip power does not scale
[Azizi 2010]
© Hardavellas3
Voltage Scaling Has Slowed
In last decade: 13x transistors but 30% lower voltage Cannot run all transistors fast enough
2003 2006 2009 2012 20150
2
4
6
8
10
12
14
Transistor Scaling (Moore's Law)
Year
Sca
lin
g F
acto
r
© Hardavellas4
Pin Bandwidth Scaling
[TU Berlin]
Cannot feed cores with data fast enough to keep them busy
2003 2006 2009 2012 20150
2
4
6
8
10
12
14
Transistor Scaling (Moore's Law)
Pin Bandwidth
Year
Sca
ling
Fac
tor
© Hardavellas5
Data Scaling• SPEC, TPC datasets growth:
faster than Moore• Same trends in scientific,
personal computing• Large Hadron Collider
March’11: 1.6PB data (Tier-1)• Large Synoptic Survey Telescope
30 TB/night 2x Sloan Digital Sky Surveys/day
Sloan: more data than entire history of astronomy before it
2004 2007 2010 2013 2016 20190
5
10
15
20
OS Dataset Scaling (Muhrvold's Law) Transistor Scaling (Moore's Law) TPC Dataset (Historic)
Year
Sca
ling
Fac
tor
More data more computing power to process them
© Hardavellas6
Galaxy: Optically-Connected Disintegrated Processors
• Physical constraints limit single-chip designs Area, Yield, Power, Bandwidth
• Multi-chip designs break free of these limitations Processor disintegration Macro-chip integration
[Pan, WINDS 2010]
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
© Hardavellas7
Outline• Introduction
➔ Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
© Hardavellas8
Nanophotonic Components
off-chiplaser
source
coupler
resonant modulators
resonant detectors
Ge-doped
waveguide
Selective: couple optical energy of a specific wavelength
© Hardavellas9
Modulation and Detection
11010101
11010101
10001011
10001011
16 - 64 wavelengths DWDM5 - 20μm waveguide pitch
10Gbps per link
8 Tbps/mm bandwidth density or more !!!
© Hardavellas10
Outline• Introduction• Background
➔ Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
Galaxy Architecture
© Hardavellas11
Off-ChipLaser
ElectricalRing
Network
WaveguideBundle
Off-ChipLaser
Read
Write
Couple
UpstreamChannel
DownstreamChannel
Electrical InputPorts Electrical
OutputPorts
OpticalOutputPorts
Electrical VC/SwitchAllocator
Optical TokenArbiter
Optical Fiber Bundle
Couplers
Chiplet 1
Chiplet 2Chiplet 3
Chiplet 4
( a ) ( b ) ( c )
Chiplet 0
© Hardavellas12
Routing Example
Galaxy Architecture
© Hardavellas13
Off-ChipLaser
ElectricalRing
Network
WaveguideBundle
Off-ChipLaser
Read
Write
Couple
UpstreamChannel
DownstreamChannel
Electrical InputPorts Electrical
OutputPorts
OpticalOutputPorts
Electrical VC/SwitchAllocator
Optical TokenArbiter
Optical Fiber Bundle
Couplers
Chiplet 1
Chiplet 2Chiplet 3
Chiplet 4
( a ) ( b ) ( c )
Chiplet 0
Galaxy MWSR Optical Crossbar
© Hardavellas14
More energy-efficient than SWMR at that scale MWSR avoids broadcast bus, but requires arbitration
Off-ChipLaser
ElectricalRing
Network
WaveguideBundle
Off-ChipLaser
Read
Write
Couple
UpstreamChannel
DownstreamChannel
Electrical InputPorts Electrical
OutputPorts
OpticalOutputPorts
Electrical VC/SwitchAllocator
Optical TokenArbiter
Optical Fiber Bundle
Couplers
Chiplet 1
Chiplet 2Chiplet 3
Chiplet 4
( a ) ( b ) ( c )
Chiplet 0
© Hardavellas15
Token-Based ArbitrationVC Token
back traversal
VC Token forward traversal
Data Channel
8 cycles on average for token arbitration (5 chiplets)
© Hardavellas16
Dense Off-Chip Coupling
• Dense optical fiber array [Lee, OSA/OFC/NFOEC 2010]
• ~3.8dB loss, 8 Tbps/mm demonstrated• Misalignment <0.7μm, 0.4μm, 0.7μm> loss <1 dB
Loss comparable to optical proximity couplers
© Hardavellas17
Nanophotonic Parameters
© Hardavellas18
Outline• Introduction• Background• Galaxy Architecture
➔ Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
© Hardavellas19
Architectural Parameters
© Hardavellas20
Modeling Infrastructure
Flexus 4.0Booksim 2.0
Cycle Accurate Full System Simulation
Power Calculations with Runtime Statistics
McPat 0.8 DSENT
AnalyticalModel +
HotSpot5.0
FloTherm9.2
Single Chip Design
Multi-Chip Design
Cores,Cache,MCs
Interconnect
DRAMSim 2.0
Thermal Modeling
+
Operating Temperature
Accurate Lekageand Dynamic
Power
DVFS for Temperature
Limiting
3D-stack model
SimFlex sampling95% confidence
photonic-layerring heating
© Hardavellas21
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
➔ Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
© Hardavellas22
Load-Latency Curves
16 tokens provide optimal buffer depth
© Hardavellas23
Laser Power Sensitivity to Optical Parameters
Coupler Loss
Off-Ring LossWaveguide & Filter Drop Loss
Modulator Insertion Loss
Highly sensitive to coupler loss, insensitive to other losses
© Hardavellas24
Sensitivity to Fiber Density
• 116mm2 chiplets 43mm along the chip edge• Enough room for 172 fibers @ 250μm pitch
128 fibers: within 3% of max performance
© Hardavellas25
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies ➔ Single-Chip Comparisons (Processor Disintegration)
Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
© Hardavellas26
Performance Against “Unlimited” Designs
• Unlimited power (max speed of design, irrespective of temp.)• Mesh_20MC & Corona_20MC
Also unlimited bandwidth (20 MCs per chip, 5x more pins)
Galaxy matches the performance of “unlimited” designs
© Hardavellas27
Performance Against Realistic Designs
• Realistic: within power and bandwidth envelopes• Galaxy chiplets within 66.2oC chiplets run at max speed
Galaxy: 2.2x speedup on average (3.4 max)
© Hardavellas28
Energy-Delay Product
• Cool chiplets minimize leakage
Galaxy: 2.4x-2.8x smaller EDP on average (6.8x max)
© Hardavellas29
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration)
➔ Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude• Overview of Other Research
© Hardavellas30
Comparison Against Multi-Chip Alternatives
© Hardavellas31
Comparison Against Multi-Chip Alternatives
Fiber
Galaxy: 2.5x over Oracle Macrochip (6.8x max)
© Hardavellas32
Tapered vs. Optical Proximity Couplers
6x less laser power than Oracle Macrochip with demonstrated couplers
© Hardavellas33
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration)
➔ Thermal Modeling• Conclude• Overview of Other Research
© Hardavellas34
80-core 5-chiplet Galaxy Thermal CFD Modeling
8cm spacing allows cooling with cheap passive heatsinks
88.20C
© Hardavellas35
9-chiplet Dense Array (Oracle Macrochip)
Tight arrangement points to liquid cooling requirement
2490C
© Hardavellas36
9-chiplet Galaxy 2D
Cooling 9 chiplets with passive heatsinks
1100C
© Hardavellas37
9-chiplet Galaxy 3D
Flexible fibers allow “virtual chip” to break free of 2D planar designs
83.60C
© Hardavellas38
Galaxy Summary• “Virtual chips” with the performance of unlimited designs• Breaks free of typical physical constraints
Large aggregate area Improved yield (break-even point : 60% yield for photonics) Tb/s/mm bandwidth density Pushes back power wall
• Processor disintegration 2.2x avg. speedup (3.4 max) 2.4x-2.8x avg. smaller EDP (6.8x max)
• Macrochip integration 2.5x speedup over Oracle Macrochip (6.8x max) 6x more power efficient links
© Hardavellas39
Outline• Introduction• Background• Galaxy Architecture• Experimental Methodology• Results
Sensitivity Studies Single-Chip Comparisons (Processor Disintegration) Multi-Chip Comparisons (Macrochip Integration) Thermal Modeling
• Conclude ➔ Overview of Other Research
© Hardavellas40
Energy is Shaping the IT Industry#1 of Grand Challenges for Humanity in the Next 50 Years
[Smalley Institute for Nanoscale Research and Technology, Rice U.]
• Computing worldwide: ~408 TWh in 2010 [Gartner]
• Datacenter energy consumption in US ~150 TWh in 2011 [EPA] 3.8% of domestic power generation, $15B CO2-equiv. emissions ≈ Airline Industry (2%)
• Carbon footprint of world’s data centers ≈ Czech Republic• Exascale @ 20MW: 200x lower energy/instr. (2nJ 10pJ)
3% of the output of an average nuclear plant!• 10% annual growth on installed computers worldwide [Gartner]
Exponential increase in energy consumption
• Integer add: 0.5pJ; FP-FMA: 50pJ. Where does energy go? Data movement: 1200pJ across 400mm2 chip, 16000pJ memory
Elastic caches: minimize data transfers through adapting caches to workload demands [ISCA’09, IEEEMicro’10, DATE’12]
Processing: ~1500pJ to schedule the operationSeaFire: specialized computing on dark silicon to eliminate general-purpose computing’s overheads [IEEEMicro’11, USENIX-Login’11]
Circuits: wide voltage guardbands Low voltages, process variation timing errors computing errors
Elastic fidelity: allow errors at select code/data segments to save energy while maintaining fidelity contract with user [CoRR abs/1111.4279]
• Chips fundamentally limited by physical constraints. Need to break free.Galaxy: processor disintegration/macrochip integration using photonic interconnects [WINDS’10]
Overall Focus: Energy-Efficient Computing
© Hardavellas42
Thank You!
Overcoming Data Movement and Processing Overheads• Elastic caches: adapt cache to workload’s demands
Significant energy on data movements and coherence requests Co-locate data, metadata, and computation Decouple address from placement location
Capitalize on existing OS events simplify hardware Cut on-chip interconnect traffic by half
• Seafire: specialized computing on dark silicon Repurpose dark silicon to implement specialized cores Application cherry-picks a few cores, rest of chip is powered off Vast unused area many specialized cores likely to find good matches
12x lower energy (conservative)
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
PE PE PE PE PE PE PE PE PE PE
Macrochip
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
PE PE PE PE PE PE PE PE PE PE
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
P M P M P M P M
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
R R R R R R R
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
PE PE PE PE PE
Multiple Chiplets
Processing Element
43 © Hardavellas
• Elastic fidelity: selectively trade accuracy for energy We don’t always need 100% accuracy, but HW always provides it Language constructs specify required fidelity for code/data segments Steer computation to exec/storage units with appropriate fidelity and
lower voltage 35% lower energy
Overcoming Voltage Guardbands
44 © Hardavellas
No errors 10% errors