87
Hot Chips 2017: NvidiaのVoltaを詳しく見る

Hot Chipsは、半導体業界の錚々たる顔ぶれが最先端のプロセッサについて深く掘り下げた解説を行う年次カンファレンスです。今年は、業界の最新トレンドを反映した多様なトピックが取り上げられました。当然のことながら、AIへの関心も非常に高く、NVIDIA、Google、Microsoftをはじめとする多くの企業によるプレゼンテーションで、最新の開発状況が概説されました。

NVIDIAは、新型Volta GV100 SMのマイクロアーキテクチャの詳細を発表するために会場にいました。プレゼンテーションの内容については後ほど詳しくお伝えしますが、NVIDIAのTeslaチーフプラットフォームアーキテクトであるRob Ober氏とのミーティングでは、GV100の詳細についてお話を伺いました。

エヌビディア ボルタ GV100

オーバー氏のバッグにはたまたまTesla V100が隠されていたので、その機会を利用して数枚写真を撮らせていただきました。GV100はSXM2フォームファクタを採用しています。ダイの両側に見えるシリコン基板キャリア上に、HBM2が4スタック(合計16GB)搭載されており、その両側にはヒートシンクの取り付け圧力がかかった際にパッケージを支える4つの「ウィング」が配置されています。

NvidiaはVoltaで半導体製造の限界を押し広げています。これは同社史上最大のダイです。TSMCの12nm FFNプロセスで製造された210億個のトランジスタを搭載した815mm²巨大なVoltaダイは、ほぼフルレチクルサイズです。そのため、欠陥発生率の高さが課題となっています。 

画像

1

5

Nvidia は GPU を 80 個のアクティブ SM (5,120 個の CUDA コア) 搭載で出荷していますが、同社は歩留まりを最大化するために 84 個の SM でダイを設計しました。4 個の予備 SM は製造工程でのあらゆる欠陥を補います。1 個の SM に欠陥がある確率は高いのに対し、4 個の SM に欠陥がある確率は非常に低いのです。Nvidia は欠陥のある SM を無効にするだけで欠陥を回避し、歩留まりを向上させています。ただし、修復不可能な欠陥がチップのより重要な領域 (I/O 相互接続や重要な経路など) にある場合は、そのダイは (通常) 廃棄されます。いずれにせよ、Volta はエンジニアリングの偉業です。そのダイ サイズは Nvidia の GP100 610mm2 ダイ (153 億個のトランジスタ) を 33% 上回っています。

Voltaダイは鋼板のブロック上に搭載されているため、GV100はかなりの重量があります。NVIDIAはGV100の底面に2つのメザニンコネクタを搭載しています。1つのコネクタは主に一般的なPCIeトラフィックに対応し、もう1つはNVLink接続専用です。GV100モジュールは8つの留め具でカスタムボード(NVIDIAはHGXリファレンスボードを提供しています)に固定され、ボードは高さの異なるサーバーシャ​​ーシ内に収納されています。

画像

1

5

カードのエッジには、16個のインダクタと電圧レギュレータがぎっしりと並んでいます。このパッケージは1Vをわずかに下回る電圧で平均300Wの電力を消費するため、ダイには300A以上の電流が流れます。NVIDIAはリファレンス冷却設計を提供していますが、HPC顧客の多くはカスタム液冷ソリューションを選択し、多くのハイパースケーラーは空冷を採用しています。サーマルソリューションは、ダイの隣にある銀色の縁取りの4つの穴に取り付けられます。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

画像

1

3

Tesla V100を搭載したDGX-1は、3U筐体に8基のVolta GPUを搭載し、40,960基のCUDAコアから960TFLOPSという驚異的な処理能力を発揮します。さらに、5,120基のTensorコア(詳細はこちら)も搭載し、6つのNVLink 2.0接続により、標準的なPCIe接続(300GB/秒)の10倍のスループットを実現しています。DXG-1は筐体単体で最大3,200Wを消費するため、効果的な冷却が不可欠です。

NVIDIAのNVLinkは、機械学習アプリケーション向けのDGX-1のハイブリッドキューブメッシュや、HPCに特化したP9 Coralシステムの独自設計など、複数のシステムトポロジーに対応しています。これらのトポロジーは、ピアツーピアのレイテンシを最小限に抑え、マルチパス機能を提供します。

NVIDIAは、低レイテンシかつ高スループットのピアツーピアGPU通信向けに、独自のNVLinkプロトコルを設計しました。同社はNVLinkプロトコルを標準化することを検討してきましたが、最終的には開発の妨げになる可能性があるとNVIDIAは考えています。CCIXやCAPIなど、複数の大手業界コンソーシアムが競合するオープンスタンダードを開発していますが、NVIDIAはNVLinkが特定のユースケースに最適であると考えています。

画像

1

2

NVIDIAは、前世代のP100と比較して、パフォーマンスが大幅に向上したと主張しています。注目すべき点は、トレーニングで12倍、推論で6倍のパフォーマンス向上です。このパフォーマンスは、HBM2、L2、L1キャッシュの高速化によってもたらされています。また、NVLink 2の拡張帯域幅により、GPU間スループットがほぼ2倍になります。

ボルタ GV100 SM

画像

1

16

ダイには80個のSM(合計5,120個のCUDAコアと640個のTensorコア)が搭載されています。改良点としては、倍増したワープスケジューラ、大容量L1命令キャッシュ、そしてTensorアクセラレーションなどが挙げられます。共有L1命令キャッシュは、独立してスケジュールされたサブコアに1クロックごとに1つのワープ命令を供給します。各サブコアは1クロックごとに1つのワープ命令を処理し、共有MIOユニットに供給します。MIOユニットには、テクスチャ、共有L1データキャッシュ、そして共有メモリが搭載されています。

各SMサブコアには、専用のL0命令キャッシュと分岐ユニットが搭載されています。ワープスケジューラは、演算ディスパッチユニットに命令を供給し、MIO命令をMIO命令キューに送って後続のスケジューリングに備え、さらに2つの4x4x4 Tensorコア(ディープラーニング専用)に命令を供給します。

4つのサブコアはMIOスケジューラに命令を送信します。128KBのL1データキャッシュは、クロックあたり128バイトの帯域幅を提供します。各サブコアは、クロックあたり64バイトでL1データキャッシュに接続します。NVIDIAは、このキャッシュサブシステムは優れたデータストリーミング性能を実現するように設計されており、GP100と比較して4倍の帯域幅と容量を実現していると述べています。

NVIDIAは、Tesla V100の独立スレッドスケジューリングと、ディープラーニング行列演算用のFP16/FP32混合精度Tensorコアに関する情報も公開しました。同社はすでにこれらの詳細の多くを公開しています。

NVIDIAは、Facebookをはじめとする複数の大規模ハイパースケーラーや大規模顧客との確固たる関係を築いています。FacebookはBig Basinプラットフォームを開発しました。これは、V100とNVIDIAのHGXリファレンスボード設計を活用したカスタムシステムです。FacebookはまもなくこのプラットフォームをOpen Compute(OCP)プロジェクトにリリースする予定であるため、この新設計を採用したOEMおよびODMシステムが次々と市場に投入されることが予想されます。これにより、NVIDIAはデータセンター向けGPUの販売チャネルを拡大することになりますが、Voltaプロセッサー搭載GPUがデスクトップ向けにいつ登場するかについては、NVIDIAはコメントしていません。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。