sc18 nvidia news...preferred networks のmn-1、nvidia dgx-1 のクラスタである理研のraiden...

3
日本の GPU 搭載システムとしては、4,352 基の Tesla V100 を備え、全体でも 7 に入った産総研の ABCI GPU スパコンの草分けである東工大の TSUBAME 2.5 よび 3.0 ResNet-50 ImageNet データセット学習を 15 分で完了させた Preferred Networks MN-1NVIDIA DGX-1 のクラスタである理研の RAIDEN ど、7 システムがランク入りしています。 TOP500 リスト発表 – Tesla V100 搭載システムが 12 位を獲得 SC18 NVIDIA 関連情報のまとめ ダラスで開催中のスーパーコンピューティングに関する学会・展示会 SC18 で、スーパーコンピューターの世 界ランキングである TOP500 リストの 2018 11 月版が発表されました。 米国エネルギー省 オークリッジ国立研究所 (ORNL) Summit 143.5 PFLOPS を記録して首位を 維持。2 位にはローレンス リバモア国立研究所の Sierra が入り、POWER9 Tesla V100 を搭載する システムが 1 位と 2 位を占めた他、5 位にスイス国立スーパーコンピューティング センター(CSCS)Piz Daint 7 位に産総研の ABCI 9 位に ORNL Titan と、トップ 10 の半数が GPU 搭載システムで、 全体では 500 127 システムが GPU 搭載スーパーコンピューターとなりました。 NEWS # システム名称 組織 Rmax [TFlop/s] GPU 7 ABCI 産業技術総合研究所 19,880 Tesla V100 22 TSUBAME 3.0 東京工業大学 8,125 Tesla P100 69 TSUBAME 2.5 東京工業大学 2,785 Tesla K20x 227 MN-1 NTT Com (PFN) 1,391 Tesla P100 279 RAIDEN GPU subsystem 理研 AIP 1,213 Tesla V100 408 QUARTETTO 九州大学 1,018 Tesla K20x 444 AIST AI Cloud 産業技術総合研究所 961 Tesla P100 v1.3 日本版 Tesla P100 Tesla V100 Tesla K20x Tesla K40 Tesla K80 Tesla 2050 Tesla P40 Tesla 2070 日本の GPU スパコンは 7 システムがランクイン Pascal Volta 世代が全体の 8 割以上 127 ある GPU 搭載システムの内訳を見ると、 首位の Summit や日本の ABCI が搭載する Volta 世代の Tesla V100 46 システム、ヨーロッパ最速の Piz Daint や日本の TSUBAME 3.0 が搭載する Pascal 世代の Tesla P100 63 システムで利用され、GPU 搭載シス テム全体の 86% を占めています。 Green 500 リストの上位に GPU システムが多数ランクイン TOP500 にランクインしたシステムの電力性能比を競うのが Green500 です。今回も理研の Shoubu (菖蒲)system B 首位となり、日本のスーパーコンピューターが 3 連覇を成し遂げました。2 位以降は GPU スパコンのパレードで、エヌビディアの DGX SATURNVTOP500 首位の Summit 、産総研の ABCI 、東工大の TSUBAME 3.0 等がずらりと並んでいます。上位 25 システムの内、実に 22 システムが GPU で加速したスーパーコンピューターで、Tesla P100 および Tesla V100 のいずれかを 搭載するシステムです。これは GPU が効率の高いアクセラレーターであることを端的に示しています。 Green500 リスト: https ://www.top500.org/green500/lists/2018/11/ エヌビディアの創業者兼 CEO であるジェンスン フアンは 12 日、SC18 参加者を招待した特別講演の中で、データセンター 向け GPU である Tesla T4 の採用が記録的な速度で進んでいると発表しました。 Turing 世代 GPU Tesla T4 は、2,560 個の CUDA コアと、320 個の Tensor コアを備え、 70W という低消費電力で、 単精度で 8.1 TFLOPS、新たに導入された INT4 演算では 260 TOPS という高い性能を発揮します。 Tesla T4 はすでに 57 機種のサーバーに採用されただけでなく、Google Cloud Platform でも利用可能となりました。 ニュースリリース: NVIDIA Announces Record Adoption of New Turing T4 Cloud GPU Google Cloud の発表: Google Cloud first to offer NVIDIA Tesla T4 GPUs Turing 世代のデータセンター向け GPU Tesla T4 の採用が急拡大 これは 1 年前の 86 システムから大幅に増加しており、新たにランクインしたシステムには、Tesla V100 をノードあたり 16 基搭載 する最新型サーバー、NVIDIA DGX-2H 36 ノードクラスタ「Circe」も含まれています。 TOP500 リスト: https://www.top500.org/lists/2018/11/ NGC Singularity をサポートするなど HPC 対応を加速 SC18 に合わせて、エヌビディアのコンテナイメージレジストリである NGC HPC 対応をさらに強化する発表が行われました。 一つは、 Singularity のサポートです。Singularity Docker のイメージを利用可能なコンテナ ランタイムですが、多数の ユーザーが共同利用する計算機センターなどで利用しやすく設計されており、HPC 領域で広く使われています。今回、 Docker に加えて Singularity をサポートしたことで、 NGC GPU 対応コンテナイメージをスーパーコンピューティングセン ターなどでも活用しやすくなります。 また、新しいマルチノード対応イメージが追加され、 MPI を使ったマルチノード ジョブを簡単に実行できるようにもなりました。 エヌビディア ブログ: NGC Containers Now Available for More Users, More Apps, More Platforms

Upload: others

Post on 20-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SC18 NVIDIA NEWS...Preferred Networks のMN-1、NVIDIA DGX-1 のクラスタである理研のRAIDEN な ど、7 システムがランク入りしています。TOP500 リスト発表–Tesla

日本の GPU 搭載システムとしては、4,352 基の Tesla V100 を備え、全体でも 7 位に入った産総研の ABCI、 GPU スパコンの草分けである東工大の TSUBAME 2.5 および 3.0、ResNet-50 の ImageNet データセット学習を 15 分で完了させたPreferred Networks の MN-1、 NVIDIA DGX-1 のクラスタである理研の RAIDEN など、7 システムがランク入りしています。

TOP500 リスト発表 – Tesla V100 搭載システムが 1、2 位を獲得

SC18 NVIDIA 関連情報のまとめ

ダラスで開催中のスーパーコンピューティングに関する学会・展示会 SC18 で、スーパーコンピューターの世界ランキングである TOP500 リストの 2018 年 11 月版が発表されました。米国エネルギー省 オークリッジ国立研究所 (ORNL) の Summit が 143.5 PFLOPS を記録して首位を維持。2 位にはローレンス リバモア国立研究所の Sierra が入り、POWER9 と Tesla V100 を搭載するシステムが 1 位と 2 位を占めた他、5 位にスイス国立スーパーコンピューティング センター(CSCS)の Piz

Daint、7 位に産総研の ABCI、9 位に ORNL の Titan と、トップ 10 の半数が GPU 搭載システムで、全体では 500 中 127 システムが GPU 搭載スーパーコンピューターとなりました。

NEWS

# システム名称 組織Rmax

[TFlop/s]GPU

7 ABCI 産業技術総合研究所 19,880 Tesla V100

22 TSUBAME 3.0 東京工業大学 8,125 Tesla P100

69 TSUBAME 2.5 東京工業大学 2,785 Tesla K20x

227 MN-1 NTT Com (PFN) 1,391 Tesla P100

279 RAIDEN GPU subsystem 理研 AIP 1,213 Tesla V100

408 QUARTETTO 九州大学 1,018 Tesla K20x

444 AIST AI Cloud 産業技術総合研究所 961 Tesla P100

v1.3

日本版

Tesla P100

Tesla V100

Tesla K20x

Tesla K40

Tesla K80

Tesla 2050

Tesla P40

Tesla 2070

日本の GPU スパコンは 7 システムがランクインPascal と Volta 世代が全体の 8 割以上

127 ある GPU 搭載システムの内訳を見ると、 首位のSummit や日本の ABCI が搭載する Volta 世代のTesla V100 が 46 システム、ヨーロッパ最速の Piz Daint

や日本の TSUBAME 3.0 が搭載する Pascal 世代のTesla P100 が 63 システムで利用され、GPU 搭載システム全体の 86% を占めています。

Green 500 リストの上位に GPU システムが多数ランクイン

TOP500 にランクインしたシステムの電力性能比を競うのが Green500 です。今回も理研の Shoubu (菖蒲)system B が首位となり、日本のスーパーコンピューターが 3 連覇を成し遂げました。2 位以降は GPU スパコンのパレードで、エヌビディアのDGX SATURNV、TOP500 首位の Summit、産総研の ABCI、東工大の TSUBAME 3.0 等がずらりと並んでいます。上位 25

システムの内、実に 22 システムが GPU で加速したスーパーコンピューターで、Tesla P100 および Tesla V100 のいずれかを搭載するシステムです。これは GPU が効率の高いアクセラレーターであることを端的に示しています。Green500 リスト: https://www.top500.org/green500/lists/2018/11/

エヌビディアの創業者兼 CEO であるジェンスン フアンは 12 日、SC18 参加者を招待した特別講演の中で、データセンター向け GPU である Tesla T4 の採用が記録的な速度で進んでいると発表しました。Turing 世代 GPU の Tesla T4 は、2,560 個の CUDA コアと、320 個の Tensor コアを備え、 70W という低消費電力で、単精度で 8.1 TFLOPS、新たに導入された INT4 演算では 260 TOPS という高い性能を発揮します。Tesla T4 はすでに 57 機種のサーバーに採用されただけでなく、Google Cloud Platform でも利用可能となりました。ニュースリリース: NVIDIA Announces Record Adoption of New Turing T4 Cloud GPU

Google Cloud の発表: Google Cloud first to offer NVIDIA Tesla T4 GPUs

Turing 世代のデータセンター向け GPU Tesla T4 の採用が急拡大

これは 1 年前の 86 システムから大幅に増加しており、新たにランクインしたシステムには、Tesla V100 をノードあたり 16 基搭載する最新型サーバー、NVIDIA DGX-2H の 36 ノードクラスタ「Circe」も含まれています。TOP500 リスト: https://www.top500.org/lists/2018/11/

NGC が Singularity をサポートするなど HPC 対応を加速

SC18 に合わせて、エヌビディアのコンテナイメージレジストリである NGC の HPC 対応をさらに強化する発表が行われました。一つは、 Singularity のサポートです。Singularity は Docker のイメージを利用可能なコンテナ ランタイムですが、多数のユーザーが共同利用する計算機センターなどで利用しやすく設計されており、HPC 領域で広く使われています。今回、Docker に加えて Singularity をサポートしたことで、 NGC の GPU 対応コンテナイメージをスーパーコンピューティングセンターなどでも活用しやすくなります。また、新しいマルチノード対応イメージが追加され、 MPI を使ったマルチノード ジョブを簡単に実行できるようにもなりました。

エヌビディア ブログ: NGC Containers Now Available for More Users, More Apps, More Platforms

Page 2: SC18 NVIDIA NEWS...Preferred Networks のMN-1、NVIDIA DGX-1 のクラスタである理研のRAIDEN な ど、7 システムがランク入りしています。TOP500 リスト発表–Tesla

Facebook: https://www.facebook.com/NVIDIAAI.JP

Twitter: @NVIDIAAIJP / @NVIDIAJapan この資料: bit.ly/sc18nvnews

ゴードン ベル賞はコンピュータ サイエンス分野の国際学会である ACM から、科学、工学、大規模データ分析分野の課題に HPC を適用する優れた業績に対して贈られる賞です。今年はオークリッジ国立研究所の “Attacking the Opioid Epidemic: Determining the

Epistatic and Pleiotropic Genetic Architectures for Chronic Pain and Opioid

Addiction” とローレンス バークレー国立研究所の “Exascale Deep Learning for

Climate Analytics” を発表した研究チームが、この栄えある賞を受け取りました。最終選考に残った 6 チームのうち 5 チームが NVIDIA の Tesla V100 GPU を活用しており、そのうち 3 チームの論文に NVIDIA の社員が共著者として関わっています。

GPU スーパーコンピューターを活用した研究がゴードン ベル賞を受賞

ACM による発表: Two Teams Honored for Work in Combating Opioid Addiction, Understanding Climate Change

エヌビディア ブログ: Twice as Nice: NVIDIA Powers Not One, But Two, Gordon Bell Prizes

以下、2 件の研究の概要を簡単に紹介します。

Attacking the Opioid Epidemic: Determining the Epistatic and Pleiotropic Genetic Architectures

for Chronic Pain and Opioid Addiction

オピオイド鎮痛剤 (医療用麻薬) は、がんなどの手術後の痛みを抑えるために有効ですが、同時にその過剰摂取が大きな問題になっています。処方された患者の約 30% がこれを乱用し 10% がオピオイド使用障害を発症しているとの研究もあります。また退役軍人の 50% 以上が慢性疼痛 (Chronic Pain) を患っており、22.7% がオピオイドを持続的に使用しています。CDC (アメリカ疾病管理予防センター) は米国内におけるオピオイド依存症による経済的損失を年間 785 億ドルと推定しています。鎮痛剤に対する感受性には大きな個人差があり、同じ薬物を同量摂取しても、依存症に陥る人とそうでない人がいます。オークリッジ国立研究所 (ORNL) のチームは、この個人差に影響する遺伝的情報を解析するために、大規模な GAWS

– ゲノムワイド関連解析を実行する CoMet というアプリケーションを開発しました。これはゲノムデータにおける関連を見つける網羅的な探索を行う、極めて計算負荷の高い処理です。その環境は、ORNL の二つのスーパーコンピューター、Titan と Summit です。Titan は、2012 年 11 月の TOP500 ランキングで首位を獲得したシステムで、18,688 ノードのそれぞれに Tesla K20x GPU を 1 基ずつ搭載しています。そして、Summit は最新の TOP500 リストの首位に輝いたシステムで、ノード毎に 6 基、4608 ノード全体では 27,648 基の Tesla V100 Tensor コア GPU を備えます。本研究では、CoMet の GPU に最適化されたベクトル比較処理が、Titan および Summit の全系での実行までスケールし、また Summit においては Tesla V100 の Tensor コアを活用することで毎秒 3 ペタ要素の比較を処理し、2.3

ExaOps の計算スループットを達成しました。この性能は、これまでの最先端手法の 1 万倍以上に相当します。

詳細はこちら: Attacking the Opioid Epidemic: Determining the Epistatic and Pleiotropic Genetic Architectures for Chronic Pain and Opioid Addiction

Titan

Summit

Exascale Deep Learning for Climate Analytics

ローレンス・バークレー国立研究所、オークリッジ国立研究所とエヌビディアの研究者は、台風やハリケーンなどの熱帯性低気圧 (TC) や、豪雨の元になる大気河川 (AR) といった、我々の生活や経済に大きな影響を与える気象状況を検出するために、GPU スーパーコンピューターの計算能力と、ディープラーニングを活用しました。使用された環境は、ORNL の Summit と、CSCS の Piz Daint (ノード毎に 1 基の Tesla P100、全体で 5704 ノード)

です。Tiramisu と DeepLabv3+ という二つのセマンティック セグメンテーション ネットワークの改良版を、TensorFlow とHorovod で実装し、CAM5 シミュレーション データセットで分散トレーニングしました。結果的に、 Piz Daint での改良版 Tiramisu ネットワークの学習は、5,300 GPU までスケーラブルで、並列化効率は 79.0%、演算スループットは 21.0

PFLOPS となりました。また、 Summit での DeepLabv3+ は 27,368 GPU までスケールし、並列化効率は単精度で90.8%、スループットは 325.8 PFLOPS を達成しました。さらに、Tesla V100 の Tensor コアを使うように改良したDeepLabv3 では、1.13 ExaFLOPS のピーク スループットを記録しました。このレベルの性能とスケーラビリティを得るために、GPFS からの高速ファイルステージング、Horovod での階層型 All-

Reduce、重み付き損失計算や LARC (Layer-wise Adaptive Rate Control) 等、様々な工夫が行われています。詳細はこちら: Exascale Deep Learning for Climate Analytics Piz Daint

東京大学地震研究所、ORNL、CSCS、エヌビディアによる研究もファイナリストに

惜しくも受賞は逃しましたが、東京大学地震研究所、ORNL、CSCS のチームによる研究も、ゴードン ベル賞の最終選考にノミネートされました。本研究は、都市部における地震の影響をシミュレートするための陰解法・非構造格子有限要素法ソルバーを、AI と変動精度演算を活用して高速化したものです。AI によって演算回数を 1/5.56 に削減し、FP16-FP21-

FP32-FP64 の変動精度演算を適用した疎行列ベクトル積カーネルは Summit の FP64

性能の 71.4 % を発揮しました。これは、標準的なソルバーの 25.3 倍、また SC14 のゴードン ベル賞ファイナリストの GAMERA と比較しても 4 倍弱高速です。また、本研究には NVIDIA Japan のシニア デベロッパー テクノロジ エンジニアである成瀬 彰も参加しているほか、SC18 のエヌビディアブースでは本研究によるシミュレーション結果の可視化デモンストレーションを行いました。

詳細はこちら: A Fast Scalable Implicit Solver for Nonlinear Time-Evolution Earthquake City Problem on Low-Ordered

Unstructured Finite Elements with Artificial Intelligence and Transprecision Computing

市村先生はじめ関係者の皆様

Page 3: SC18 NVIDIA NEWS...Preferred Networks のMN-1、NVIDIA DGX-1 のクラスタである理研のRAIDEN な ど、7 システムがランク入りしています。TOP500 リスト発表–Tesla

Facebook: https://www.facebook.com/NVIDIAAI.JP

Twitter: @NVIDIAAIJP / @NVIDIAJapan この資料: bit.ly/sc18nvnews

Student Cluster Competition では全チームが Tesla V100 GPU を活用

世界の学生がスーパーコンピューティングの技能を競う Student Cluster Competition が SC18 でも開催されました。これは学生達がチームを組み、スポンサーを募って機材を集め、自分たちの手で SC18 の会場にクラスタを構築して性能測定に挑むものです。対象となるのは、Linpack と HPCG という 2 種類の定番ベンチマークに加えて、Horovod を使った分散ディープラーニング、OpenMC によるモンテカルロ粒子輸送計算、SeisSol 地震シミュレーション コードをつかった論文の再現、そして SC18 初日に発表される「謎のアプリケーション」です。これは事前に対策を練ることができないため、現地での即応力が試されます。各チームは様々な制約条件の中でベストを尽くします。まず、利用できる電力が 3KW に制限されているため、大きなクラスターを使って力任せに問題を解くという手段はとれません。電力性能比の高いクラスターを構築し、ハードウェアの性能を最大限に引き出すチューニングを施す必要があります。この点において、全てのチームが Tesla V100 GPU を採用したことは賢明な判断と言えるでしょう!また、実際の計算機クラスター運用における障害を想定し、競技期間中に「停電」が発生するようにもなっています。停電による計算の中断に対処し、電源復旧後に正しく再開できる仕組みも構築しなければなりません。さらに、「スケジューラーを導入してジョブ実行を自動化し、SC18 の他のイベントも楽しむこと」が推奨されています。48 時間あまりの短い競技ですが、間に合わせのシステムに人を貼り付けてジョブを手投げするような運用は避けなければなりません。各ベンチマークとアプリケーションのスコアや面接を含めた審査の結果、中国の精華大学のチームが見事総合優勝を勝ち取りました。精華大学は、HPCG ベンチマーク性能でも 1,985.97 GFlops で優勝しています。また、Linpack 性能ではシンガポールの南洋理工大学が 56.51 TFlops で SC17 に続き 2 連覇を達成しました。おめでとうございます!エヌビディア ブログ: Dazzling in Dallas: Tsinghua University Wins Student Cluster Competition at SC18

精華大学のポスター: Tsinghua University Team in SC18 Student Cluster Competition

南洋理工大学のポスター: TEAMSUPERNOVA Nanyang Technological University, Singapore

ソニーが ABCI を使い ResNet-50 の ImageNet 学習で新記録を樹立

スーパーコンピューターのベンチマークとして長年の定番といえば Linpack ですが、ディープラーニング界隈では「ImagNet-1K

データセットで ResNet-50 ネットワークを訓練し、90 エポックで Accuracy 75% を達成する時間を競う」という競技(?)が盛んです。Preferred Networks のチームが 1024 基の Tesla P100 で 15 分という記録を打ち立てたのは 1 年前のことですが、今年の 7 月には Tencent の研究者が Tesla P40 を 2048 基使って 6.6 分という驚異的な記録を作りました。そして今回、ソニーのチームが産総研のスーパーコンピューター ABCI で 2176 基の Tesla V100 により 224 秒で学習を完了させ、見事記録を更新しました。使用されたソフトウェアはソニー自製の Neural Network Libraries (NNL) と、その CUDA

拡張。ノード間通信のオーバヘッドを削減するために、エヌビディアの集合通信ライブラリ NCCL も活用されたとのことです。エヌビディア ブログ: ソニー、NVIDIA V100 Tensor コア GPU を使い、ResNet-50 でのトレーニングの新記録を樹立ソニーの発表: ディープラーニングの分散学習で世界最高速を達成産総研の発表: AI向けクラウド型計算システム「ABCI」が深層学習の学習速度で世界最速に

Tesla V100 の展示にご協力頂いたブースのご紹介

東工大 (427) NAIST (439) JAMSTEC (505) AIST (2409) 東京大学 (939)

富士通 (1226) 東北大学 (1416) 大阪大学 (1825) 九州大学 (805) HPC SYSTEMS

(4241)

今年も多くの皆様に GPU 展示のご協力をいただきました。厚く御礼申し上げます。カッコ内の数字はブースの番号です。どのブースも特色のある展示が目白押しです。