81
AMD、Vega 10をベースにしたRadeon Instinctアクセラレーターを発表

Tom's Hardwareの米国とドイツのチームは、カリフォルニア州ソノマでAMDのCEO、リサ・スー博士、CTOのマーク・ペーパーマスター氏、Radeon Technologies Groupのチーフアーキテクト、そして他のAMDリーダーたちと2日間を過ごした荷物をまだ開けているところです。このテクノロジーサミットでは当然のことながら、Vega 10とZenを含むいくつかのトピックを取り上げており、今後数日から数週間かけて詳しく分析していく予定です。しかしまず、同社はディープラーニングの推論とトレーニングを加速するために設計された3つのアドインカードと、それらの能力を最大限に活用するように調整されたオープンソースライブラリを発表したいと考えていました。NVIDIAはGPUアクセラレーションによる機械学習市場で大きな先行をとっているため、AMDにはここで時間を無駄にする余裕はありません。

Radeon Instinct のご紹介

これら3枚のカードはすべて、Radeon Instinctと呼ばれる新しい製品ファミリーに属しています。カバーに記載されている内容とは異なり、ここで取り上げている基盤となるハードウェアは、Tom's Hardwareの読者にはほぼ馴染みのあるものです。エントリーモデルのRadeon Instinct MI6はPolaris GPUを搭載し、ミドルクラスのMI8はRadeon R9 Fury NanoのFijiプロセッサを搭載し、フラッグシップモデルのMI25は近日発売予定のVegaベースのチップを搭載しています。AMDは全モデルがパッシブ冷却方式だと述べていますが、これは少々不誠実です。ラックマウント型筐体では各モデルに独自のエアフロー要件があり、ファンの静音性は極めて低いからです。

Radeon Instinct MI6は16GBのメモリを搭載し、AMDのデスクトップクラスのRadeon RX 480と同じ150Wのボード消費電力を実現しています。EllesmereプロセッサはFP16のピークレートが5.7TFLOPSと謳われており、FP32と同様に半精度のFP16を処理するため、周波数は約1,240MHzと逆算できます。さらに、メモリ帯域幅は224GB/秒で、4GB版Radeon RX 480の7Gb/秒GDDR5と完全に一致します。

Polarisと同様に、FijiプロセッサはFP16とFP32の比率が1:1であるため、MI8カードの半精度演算速度8.2 TFLOPSは、Radeon R9 Fury Nanoの単精度演算速度(コア周波数1,000MHz、シェーダー4,096個すべて有効)と同等です。もちろん、Radeon R9 Fury Nanoは第1世代HBMを4スタックまでしか搭載できないため、Radeon Instinct MI8も4GBの容量上限を継承しています。

AMDによると、MI6とMI8はGPUアクセラレーションによる推論に最適であり、これはニューラルネットワークがより集中的なトレーニング段階を経た後に行うものです。推論では、可能な限り最高の応答時間を得るために、トレーニングよりも入力数が少なくなることがよくあります。そのため、MI8の比較的小規模なHBMは、特にカードのメモリ帯域幅が512GB/秒であることを考えると、パフォーマンスを低下させる可能性は低いでしょう。

もちろん、フラッグシップモデルであるMI25が最も注目を集めるでしょう。まだ発表されていないVegaベースのGPUを搭載しているため、速度やフィードに関する情報は限られています。しかし、以前の2つのモデルをご覧になった方もお分かりでしょうが、AMDのInstinctの名称はFloat16演算に対応しており、最大25TFLOPSの性能が期待できます。これは、アーキテクチャの32ビットパイプラインを介して2つの16ビット演算に対応する、より柔軟な混合精度エンジンによって実現されています。ソニーのPlayStation 4 Proも最近同様の機能を搭載しており、AMDの他の今後のグラフィックス製品にも搭載されるのは間違いありません。劇的に向上したコンピューティングスループットと、おそらく多数のオンパッケージHBM2により、このカードはトレーニングワークロードに最適です。

AMDがFP16の性能を重視する理由は何でしょうか?学術研究では、ディープラーニングのワークロードにおいて、半精度演算でもFP32と同等の分類精度が得られることが示されています。帯域幅が制限されたタスクでは、FP16ストレージを使用することでメモリサブシステムへの負荷を大幅に軽減できます。しかし、Vegaのようなアーキテクチャでは、FP16演算の性能は理論上2倍になり、しかもFP32と比べて精度の低下は最小限に抑えられます。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

AMDがこの情報をできるだけ早く公開したかったのも無理はありません。NVIDIAのGP100は混合精度もサポートしており、GPUのブーストクロックレートを使用した場合、半精度スループットは最大21.2TFLOPSに達します。さらに、NVIDIAはCUDA 8を積極的に推進していますが、Vegaベースのハードウェアが登場するまでにはまだ数ヶ月かかります。AMDは少なくともソフトウェア面での自社の取り組みを説明し、開発者がこれらのディープラーニングアクセラレータを使ったプログラミングを検討できるようにすることはできるでしょう。

MIOpenを通じてハードウェアを活用する

AMDはハードウェアの公開に合わせて、Radeon Instinctカード向けのGPUアクセラレーションソフトウェアライブラリ「MIOpen」も公開しました。MIOpenは2017年第1四半期に提供開始予定で、Baidu ResearchのDeepBenchツールで生成された予備的なベンチマーク結果も公開しました。DeepBenchをご存じない方のために説明すると、DeepBenchは32ビット浮動小数点演算を用いたトレーニングパフォーマンスをテストします。AMDはテストの演算のうち1つ(GEMM)のみを報告しているため、結果はかなり厳選されたものとなっています。とはいえ、これはまだ開発初期のハードウェアです。

AMDはGeForce GTX Titan X (Maxwell)を基準としています。このカードは、ベース周波数でFP32のピークレートが6.14 TFLOPSです。Titan X (Pascal)は、主にGPUクロックレートの大幅な向上により、10.2 TFLOPSまで跳ね上がります。AMDはMIOpenライブラリを使用して、8.2 TFLOPSのRadeon Instinct MI8がNvidiaのフラッグシップモデルを上回ったことを示しました。一方、MI25は、NvidiaのPascalベースのTitanよりも約50%高速で、前世代のTitan Xよりも90%高速です。Vegaの混合精度処理に関する知見に基づくと、MI25のFP32レートは約12 TFLOPSと推測できます。AMDが既に報告している優位性を実現するには、MIOpenをハードウェア向けに最適化する必要があることは明らかです。

MIOpenライブラリはAMDのソフトウェア戦略の一部に過ぎず、オープンソースのRadeon Open Computeプラットフォームのヘテロジニアス・コンピュート・コンパイラ、HIP(CUDAコードをポータブルC++に変換する)、OpenCL、Pythonのサポートを基盤としています。ROCmは、マルチGPUトポロジ向けの集合通信ルーチンライブラリであるNCCL、関連するすべての数学ライブラリ、そしてC++標準テンプレートライブラリのサポートも組み込んでいます。

AMDは2016年初頭、シングルルートI/O仮想化(SR-IOV)規格に基づくマルチユーザーGPUテクノロジーを搭載したFirePro Sシリーズカードを発表しました。例えば、この技術は仮想マシン(VM)からグラフィックスハードウェアへの直接アクセスを可能にし、クラウドゲームで人気を博したようです。AMDは、機械学習アプリケーション向けにRadeon InstinctボードでもMxGPUを公開しており、NVIDIAは機能を個別の製品に分離することに関してより厳格であることをすぐに指摘しました。

すべてをまとめる

AMDはRadeon Instinctアクセラレータの発表にとどまらず、複数のインテグレーターを招き、これらのカードに関する計画を披露しました。その一方で、Supermicroは既存のSuperServer 1028GQ-TFT(デュアルソケットXeon E5搭載1Uマシン)にMI25カードを4枚搭載し、FP16で最大100TFLOPSの性能を実現しました。オプションのXeon Phiカードは半精度演算すらサポートしておらず、Supermicroの認定リストに掲載されているTesla P100アドインカードはメザニン版よりも遅く、1枚あたり18.7TFLOPSにとどまります。

一方、Inventec は、120 個の MI25 GPU、6 台の 2U 24 ベイ サーバー、および 6 台の 4U PCIe スイッチを搭載し、最大 3 PFLOPS を実現する 39U プラットフォームについて説明しました。


当然のことながら、AMDはZen CPUとRadeon Instinctアクセラレーターがヘテロジニアスコンピューティング環境で連携動作する、近い将来の可能性を示唆せずにはいられませんでした。しかし、そのような組み合わせが実現するまでには少なくとも6ヶ月かかるため、その可能性についての憶測はもう少し待たなければなりません。

クリス・アンジェリーニは、Tom's Hardware USの名誉編集者です。ハードウェアレビューの編集を担当し、注目度の高いCPUやGPUの発表を取り上げています。