
カリフォルニア州クパティーノ - Nvidia は、Hot Chips 2018 で、DGX-2 サーバーの主要な実現機能である NVSwitch テクノロジの詳細を発表しました。
Nvidia の CEO であるジェンスン フアン氏が、GTC 2018 で DGX-2 サーバーを「世界最大の GPU」として紹介したことは有名です。フアン氏のこの素晴らしい主張の根拠は、実際には 16 個の強力な Tesla V100 GPU が柔軟な新しい GPU 相互接続で結び付けられており、ホスト システムには統合されたメモリ空間を持つ 1 つの大きな GPU として表示されるという事実でした。
DGX-2は驚異的なスペックと、それに見合う40万ドルという驚異的な価格を誇ります。しかし、最先端のデータセンターやAI研究者が利用する競合ソリューションと比べても、価格は非常に競争力があります。AI開発は急速に変化しており、ほぼ毎週のように新たな進歩が生まれています。これらの新しいディープラーニングモデルの多くは、以前のバージョンよりもはるかに大規模で、より多くのメモリ容量と膨大な計算能力を必要とします。
NVIDIAのソリューションは、16個のGPUをユニバーサルメモリインターフェースと512GBの大容量HBM2メモリで統合することです。DGX-2は81,920個のCUDAコアを搭載し、さらに12,240個のTensorコアがAIワークロード用にチップインします。これらの強力なリソースには、驚異的な10kWの電力が必要です。
画像
1
の
15

Tesla V100は驚異的なパワーを秘めています。815mm 2 の ダイはフルレチクルサイズで、210億個のトランジスタを集積しています。この巨大なダイは、DGX-2システムに搭載されているNVIDIAの新しいSXM3パッケージの上に搭載されています。この最新パッケージは350W(旧モデルより50W増加)で動作し、32GBのHBM2メモリを搭載しています。NVIDIAは、この50Wの追加電力がGPUのクロック周波数向上に充てられていることを確認していますが、具体的な周波数は公表していません。
DGX-2は2つの異なる通信トポロジーを備えており、GPU間通信におけるPCIeインターフェースの制限を回避します。各V100 GPUは、2つのメザニンコネクタを介してマザーボードとインターフェースします。1つはPCIeトラフィックをサーバー前面のパッシブバックプレーンに伝送し、もう1つはNVLinkトラフィックを背面バックプレーンに伝送します。これらのバックプレーンは、それぞれ8基のV100 GPUを搭載した上部システムボードと下部システムボード間の通信を容易にします。PCIeトポロジーは、CPU、RDMA対応ネットワーク、そして最大30TBのNVMe SSDをGPUに接続する4つのスイッチを備えています。
NVIDIAのDGX-2設計では、NVLinkトラフィック用の高性能スイッチが必要でしたが、市販の設計では同社の帯域幅とレイテンシの目標を満たすことができませんでした。解決策が見当たらない中、同社は設計図を作成し、画期的な独自のスイッチを設計しました。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
画像
1
の
6

NVSwitchはTSMCの12FFNプロセスで製造されています。ダイには180億個のトランジスタが搭載され、デバイス管理用のNVLinkを18個とPCIeリンクを1つ備えています。NVLinkはNVIDIA独自のプロトコルを使用し、ポートあたり25GB/秒の帯域幅を実現し、合計450GB/秒のスループットを実現します。合計18個のスイッチにより、GPU間の双方向帯域幅は最大2.4TB/秒に達します。
106mm 2のNVSwitchダイは、独特の細長いダイアスペクト比を備えていますが、驚くべきことに、これはNVIDIAが1枚のウェーハあたりに収穫できるダイ数に大きな影響を与えません。ダイの50%はロジックではなく、I/Oコントローラー(ダイの上部、右側、左側に並ぶNVLink PHYなど)専用です。小さなポートロジックブロックはパケット変換を行い、システム全体を単一のGPUとして認識させます。独自のスタック型PHY設計により、ダイからの並列パス配線が可能になり、基板配線が簡素化されます。
NVSwitchのダイは、本格的なネットワークスイッチと比較すると比較的シンプルです。これは主に、DGX-2が前方誤り訂正を必要としないことによるものです。代わりに、NVIDIAは標準的なCRCを用いて内部整合性チェックを実現しています。スイッチには内部SRAMバッファが搭載されていますが、外部レーンはバッファリングされていません。また、DGX-2にはNVLinkパスウェイ用のリピーターやリドライバも搭載されていません。

NVSwitchはデュアルクロスバー構成で配置されているため、上側のGPUから下側のGPUへのアクセスには若干のレイテンシが発生します。ただし、AIモデルは極めて広い帯域幅を必要とするため、レイテンシのわずかな変動は許容されます。
画像
1
の
15

シャーシ全体の消費電力は10kWですが、DGX-2は48Vの電力分配サブシステムを採用することで、システムの駆動に必要な電流量を削減しています。銅製のバスバーが電源から2つのシステムボードへ電流を供給します。このモンスターを冷却するには、毎分1000フィート(約300m)のエアフローが必要ですが、GPUヒートシンクから排出される予熱された空気は、シャーシ背面の冷却効率を低下させます。NVSwitchはシャーシ背面に配置されているため、大型のフルハイトヒートシンクが必要となります。NVIDIAはNVSwitchの消費電力を公表していませんが、標準的なネットワークスイッチよりも低い消費電力だと主張しています。
画像
1
の
6

NVIDIAは、異なるシステムボード上のリモートGPU間の帯域幅スケーリングがほぼ線形であることを強調するベンチマーク結果を公開しました。これは明らかにNVSwitchの効率性を強調する意図によるものです。all-reduceやcuFFTといった他のベンチマークでは、DGX-2のトポロジが前世代のDXG-1のメッシュよりも優れている点が強調されています。
NvidiaのHot Chipsプレゼンテーションでは、消費電力という大きな例外を除き、NVSwitchをめぐる多くの疑問に答えが示されました。唯一未回答の疑問は、TuringベースのDGX-3へのアップデート時期です。Nvidiaは、AIシステム用の現行プラットフォームはVoltaであり、次世代システムのリリース時期については明言を避けています。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。