isca final presentation - applications

HSA APPLICATIONSWEN-MEI HWU, PROFESSOR, UNIVERSITY OF ILLINOIS

WITH J.P. BORDES AND JUAN GOMEZ

USE CASES SHOWING HSA ADVANTAGE

Programming Technique Use Case Description HSA Advantage

Pointer-based Data Structures

Binary tree searchesGPU performs parallel searches in a CPU created binary tree.

CPU and GPU have access to entire unified coherent memory. GPU can access existing data structures containing pointers.

Platform Atomics

Work-Group Dynamic Task ManagementGPU directly operate on a task pool managed by the CPU for algorithms with dynamic computation loads

Binary tree updatesCPU and GPU operating simultaneously on the tree, both doing modifications

CPU and GPU can synchronize using Platform AtomicsHigher performance through parallel operations reducing the need for data copying and reconciling.

Large Data SetsHierarchical data searchesApplications include object recognition, collision detection, global illumination, BVH

CPU and GPU have access to entire unified coherent memory. GPU can operate on huge models in place, reducing copy and kernel launch overhead.

CPU CallbacksMiddleware user-callbacksGPU processes work items, some of which require a call to a CPU function to fetch new data

GPU can invoke CPU functions from within a GPU kernelSimpler programming does not require “split kernels”Higher performance through parallel operations

UNIFIED COHERENT MEMORY FOR POINTER-BASED DATA STRUCTURES

UNIFIED COHERENT MEMORYMORE EFFICIENT POINTER DATA STRUCTURES

Legacy

SYSTEM MEMORY

KERNEL

TREE RESULTBUFFER

L R L R

GPU MEMORY

RESULT BUFFER

FLAT TREE

Legacy

SYSTEM MEMORY

KERNEL

TREE RESULTBUFFER

L R L R

GPU MEMORY

RESULT BUFFER

FLAT TREE

Legacy

SYSTEM MEMORY

KERNEL

TREE RESULTBUFFER

L R L R

GPU MEMORY

RESULT BUFFER

FLAT TREE

Legacy

SYSTEM MEMORY

KERNEL

TREE RESULTBUFFER

L R L R

GPU MEMORY

RESULT BUFFER

FLAT TREE

Legacy

SYSTEM MEMORY

KERNEL

TREE RESULTBUFFER

L R L R

GPU MEMORY

RESULT BUFFER

FLAT TREE

Legacy

SYSTEM MEMORY

KERNEL

TREE RESULTBUFFER

L R L R

GPU MEMORY

RESULT BUFFER

FLAT TREE

Legacy

SYSTEM MEMORY

KERNEL

TREE RESULTBUFFER

L R L R

GPU MEMORY

RESULT BUFFER

FLAT TREE

SYSTEM MEMORY

KERNEL

HSA and full OpenCL 2.0

TREE RESULTBUFFER

L R L R

SYSTEM MEMORY

KERNEL

TREE RESULTBUFFER

L R L R

SYSTEM MEMORY

KERNEL

TREE RESULTBUFFER

L R L R

SYSTEM MEMORY

KERNEL

TREE RESULTBUFFER

L R L R

SYSTEM MEMORY

KERNEL

TREE RESULTBUFFER

L R L R

POINTER DATA STRUCTURES - CODE COMPLEXITY

HSA Legacy

POINTER DATA STRUCTURES- PERFORMANCE

1M 5M 10M 25M0

10,000

20,000

30,000

40,000

50,000

60,000

Binary Tree Search

CPU (1 core)

CPU (4 core)

Legacy APU

HSA APU

Tree size ( # nodes )

Measured in AMD labs Jan 1-3 on system shown in back up slide

PLATFORM ATOMICS FOR DYNAMIC TASK MANAGEMENT

PLATFORM ATOMICSENABLING MORE EFFICIENT DYNAMIC TASK MANAGEMENT

Legacy*

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

*Chen et al., Dynamic load balancing on single- and multi-GPU systems, IPDPS 2010

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

Legacy*

Asynchronous transfer

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

Legacy*

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

Legacy*

Asynchronous transfer

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

Legacy*

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

Legacy*

Atomic add

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

Legacy*

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

Legacy*

Atomic add

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

Legacy*

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

PLATFORM ATOMICS

Legacy*

Atomic add

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

Legacy*

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

Legacy*

Atomic add

SYSTEM MEMORY

WORK-GROUP 1

NUM. WRITTEN

GPU MEMORY

QUEUE 2QUEUE 1

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

NUM. WRITTEN

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 3

WORK-GROUP 4

TASKS POOL

Legacy*

Zero-copy

HOST COHERENT MEMORY

WORK-GROUP 1

NUM. WRITTEN

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

WORK-GROUP 3

WORK-GROUP 4

GPU MEMORY

WORK-GROUP 1

NUM. WRITTEN

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

WORK-GROUP 3

WORK-GROUP 4

GPU MEMORY

memcpy

WORK-GROUP 1

NUM. WRITTEN

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

WORK-GROUP 3

WORK-GROUP 4

GPU MEMORY

WORK-GROUP 1

NUM. WRITTEN

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

WORK-GROUP 3

WORK-GROUP 4

GPU MEMORY

WORK-GROUP 1

NUM. WRITTEN

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

WORK-GROUP 3

WORK-GROUP 4

GPU MEMORY

Platform atomic add

WORK-GROUP 1

NUM. WRITTEN

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

WORK-GROUP 3

WORK-GROUP 4

GPU MEMORY

WORK-GROUP 1

NUM. WRITTEN

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

WORK-GROUP 3

WORK-GROUP 4

GPU MEMORY

Platform atomic add

WORK-GROUP 1

NUM. WRITTEN

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

WORK-GROUP 3

WORK-GROUP 4

GPU MEMORY

WORK-GROUP 1

NUM. WRITTEN

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

WORK-GROUP 3

WORK-GROUP 4

GPU MEMORY

Platform atomic add

WORK-GROUP 1

NUM. WRITTEN

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

WORK-GROUP 3

WORK-GROUP 4

GPU MEMORY

WORK-GROUP 1

NUM. WRITTEN

QUEUE 2QUEUE 1

TASKS POOL

NUM. CONSUMED

QUEUE 1

QUEUE 2

WORK-GROUP 2

WORK-GROUP 3

WORK-GROUP 4

GPU MEMORY

Platform atomic add

PLATFORM ATOMICS – CODE COMPLEXITY

HSALegacy

Host enqueue function: 20 lines of code

Host enqueue function: 102 lines of code

PLATFORM ATOMICS - PERFORMANCE

64 128 256 512 64 128 256 5124096 16384

Legacy implementation (ms)

HSA implementation (ms)

Tasks per insertionTasks pool size

PLATFORM ATOMICS FOR CPU/GPU COLLABORATION

PLATFORM ATOMICSENABLING EFFICIENT GPU/CPU COLLABORATION

Legacy

Only GPU can work on input

arrayConcurre

nt processin

g not possible

TREEINPUTBUFFER

KERNEL

PLATFORM ATOMICS

Legacy

arrayConcurre

nt processin

g not possible

TREEINPUTBUFFER

KERNEL

PLATFORM ATOMICS

Legacy

arrayConcurre

nt processin

g not possible

TREEINPUTBUFFER

KERNEL

PLATFORM ATOMICS

Both CPU+GPU

operating on same

data structure

concurrently

TREEINPUTBUFFER

KERNEL

PLATFORM ATOMICS

Both CPU+GPU

operating on same

data structure

concurrently

TREEINPUTBUFFER

UNIFIED COHERENT MEMORY FOR LARGEDATA SETS

PROCESSING LARGE DATA SETS

The CPU creates a large data structure in System Memory. Computations

using the data are offloaded to the GPU.

SYSTEM MEMORY

Level 1

Level 2

Level 3

Level 4

Level 5

PROCESSING LARGE DATA SETS

tial d

The CPU creates a large data structure in System Memory. Computations

using the data are offloaded to the GPU.

Compare HSA and Legacy methods

SYSTEM MEMORY

LEGACY ACCESS USING GPU MEMORY

Legacy

GPU Memory is smaller

Have to copy and process in chunks

GPU MEMORY

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

LEGACY ACCESS TO LARGE STRUCTURES

tial d

GPU MEMORY

SYSTEM MEMORY

COPY ONE CHUNK AT A TIME

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

Copy of top 2 levels of hierarchy

tial d

GPU MEMORY

SYSTEM MEMORY

PROCESS ONE CHUNK AT A TIME

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

FIRSTKERNEL

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

GPU MEMORY

FIRSTKERNEL

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

GPU MEMORY

FIRSTKERNEL

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

GPU MEMORY

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

Copy of bottom 3 levels of one branch of the hierarchy

GPU MEMORY

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

GPU MEMORY

SECOND KERNEL

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

GPU MEMORY

SECOND KERNEL

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

GPU MEMORY

SECOND KERNEL

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

GPU MEMORY

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

GPU MEMORY

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

Copy of bottom 3 levels of a different branch of the

hierarchy

GPU MEMORY

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

GPU MEMORY

NthKERNEL

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

GPU MEMORY

NthKERNEL

SYSTEM MEMORY

Legacy

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

GPU MEMORY

NthKERNEL

LARGE SPATIAL DATA STRUCTURE

Level 1

Level 2

Level 3

Level 4

Level 5

tial d

eSYSTEM MEMORY

KERNEL

GPUHSA and full OpenCL 2.0

SYSTEM MEMORY

GPU CAN TRAVERSE ENTIRE HIERARCHY

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

SYSTEM MEMORY

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

SYSTEM MEMORY

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

SYSTEM MEMORY

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

SYSTEM MEMORY

Level 1

Level 2

Level 3

Level 4

Level 5

KERNEL

HSAGPU

CALLBACKS

Parallel processing algorithm with branches A seldom taken branch requires new data from the CPU

On legacy systems, the algorithm must be split: Process Kernel 1 on GPU Check for CPU callbacks and if any, process on CPU Process Kernel 2 on GPU

Example algorithm from Image Processing Perform a filter Calculate average LUMA in each tile Compare LUMA against threshold and call CPU callback if exceeded (rare) Perform special processing on tiles with callbackx\s

COMMON SITUATION IN HC

Input Image Output Image

CALLBACKS

Legacy

1st KERNEL

CPU callbacks

Early term

ination

due to need fo

callback

2nd KERNEL

START Continuation kernel

finishes up kernel works results in poor GPU utilization

CALLBACKS

Input Image

1 Tile = 1 OpenCL Work Item

Output Image

GPU• Work items compute average RGB value

of all the pixels in a tile • Work items also compute average Luma

from the average RGB• If average Luma > threshold, workgroup

invokes CPU CALLBACK• In parallel with callback, continue compute

CPU • For selected tiles, update average Luma

value (set to RED)

GPU• Work items apply the Luma value to all

pixels in the tile

GPU to CPU callbacks use Shared Virtual Memory (SVM) Semaphores, implemented using Platform Atomic Compare-and-Swap.

CALLBACKS

A few kernel threads need CPU callback services but serviced immediately

KERNEL

CPU callbacks

SUMMARY - HSA ADVANTAGE

Programming Technique Use Case Description HSA Advantage

Pointer-based Data Structures

Binary tree searchesGPU performs parallel searches in a CPU created binary tree.

CPU and GPU have access to entire unified coherent memory. GPU can access existing data structures containing pointers.

Platform Atomics

Work-Group Dynamic Task ManagementGPU directly operate on a task pool managed by the CPU for algorithms with dynamic computation loads

Binary tree updatesCPU and GPU operating simultaneously on the tree, both doing modifications

CPU and GPU can synchronize using Platform AtomicsHigher performance through parallel operations reducing the need for data copying and reconciling.

Large Data SetsHierarchical data searchesApplications include object recognition, collision detection, global illumination, BVH

CPU and GPU have access to entire unified coherent memory. GPU can operate on huge models in place, reducing copy and kernel launch overhead.

CPU CallbacksMiddleware user-callbacksGPU processes work items, some of which require a call to a CPU function to fetch new data

GPU can invoke CPU functions from within a GPU kernelSimpler programming does not require “split kernels”Higher performance through parallel operations

QUESTIONS?

isca final presentation - applications

r copyright

hsa foundation

written tasks gpu memory

new data gpu

system memory work group

entire unified coherent

existing data structures

gpu kernel simpler programming

Technology

isca 2009 bless

isca final presentation - queuing model

proceedings - isca

isca final presentation - runtime

isca 2018-2019 event schedule final · show committee (708)...

varna swara - isca

future fit - isca

ksa model exam isca final (old) ans key · ksa model exam...

set ii ca final isca summary notes 2012

isca general assembly

ksa model exam isca final (old) ans key - ks academy · ksa...

isca-ca final

isca index to the isca quarterly 1970 - 1979 aug 1979

isca professional business accountant (isca pba)...isca is...

isca roralpresentation20140930

welcome to master minds - ca, ca coaching, icwa, talent test...

financial forensic accounting - iscaintroduction 1.1. the...

isca presentation final - illinois · isca presentation...

isbn - isca

isca master summary