95
Nvidia の次世代 AI GPU は Hopper より 4 倍高速: Blackwell B200 GPU は最大 20 ペタフロップスのコンピューティング能力を実現し…
GTC 2024
(画像提供:Tom's Hardware)

Nvidiaは現在、AIの世界の頂点に君臨しており、誰もが欲しがるデータセンターGPUを提供しています。同社のHopper H100とGH200 Grace Hopperスーパーチップは大きな需要があり、世界で最も高性能なスーパーコンピューターの多くに搭載されています。さあ、席にしっかりつかまってください。NvidiaはHopperの後継機を発表しました。本日開催されたGTC 2024で、CEOのジェンスン・フアンは、次世代データセンターおよびAI GPUであるBlackwell B200を発表しました。このGPUは、計算能力において飛躍的な世代間飛躍をもたらすでしょう。

BlackwellアーキテクチャとB200 GPUは、H100/H200に代わるものです。また、Grace Blackwell GB200スーパーチップも登場します。名前から想像できる通り、Grace CPUアーキテクチャは継承しつつ、アップデートされたBlackwell GPUを搭載します。NVIDIAは最終的にコンシューマー向けBlackwell GPUも投入すると予想されますが、2025年まで登場しない可能性があり、データセンター向けチップとは大きく異なるものになるでしょう。

Nvidia ブラックウェル GPU

画像

1

8

Nvidia Blackwell GTC 2024 基調講演
(画像提供:Nvidia)

大まかに言うと、B200 GPUは既存のH100の2倍以上のトランジスタ数を備えています。後ほど詳しく説明しますが、B200は2080億個のトランジスタを搭載しています(H100/H200は800億個)。また、単一のGPUで20ペタフロップスのAI性能を提供します。これは、単一のH100では最大4ペタフロップスのAIコンピューティング性能だったのに対し、B200は192GBのHBM3eメモリを搭載し、8TB/sの帯域幅を提供します。

さて、いくつか注意点についてお話ししましょう。まず第一に、噂通り、Blackwell B200は従来の意味での単一のGPUではありません。Nvidiaによると、2つの密結合したダイで構成されていますが、1つの統合CUDA GPUとして機能します。2つのチップは10TB/sのNV-HBI(Nvidia High Bandwidth Interface)接続で接続されており、完全にコヒーレントな単一のチップとして適切に機能します。

このデュアルダイ構成の理由はシンプルです。Blackwell B200は、既存のHopper H100およびAda LovelaceアーキテクチャGPUで使用されている4Nプロセスの改良版であるTSMCの4NPプロセスノードを採用します。TSMCの4NPについては詳細な情報がありませんが、おそらく機能密度の大幅な向上は期待できません。つまり、より強力なチップを求めるなら、より大きなチップサイズが必要になります。H100は既に基本的にフルレチクルサイズのチップであり、ダイサイズは814mm²(理論上の最大値は858mm²)であるため、これは困難です。

画像

1

7

Nvidia Blackwell プラットフォームトレイ
(画像提供:Tom's Hardware)

B200はフルレチクルサイズのチップを2つ搭載しますが、Nvidiaはまだ正確なダイサイズを発表していません。各ダイには、それぞれ24GBのHMB3eスタックが4つ搭載されており、1024ビットインターフェースでそれぞれ1TB/sの帯域幅を備えています。H100には、それぞれ16GBのHBM3スタックが6つ搭載されていました(当初はH200で24GB×6に増加)。つまり、H100のダイのかなりの部分が6つのメモリコントローラーに割り当てられていたことになります。チップあたりのHBMインターフェースを4つに減らし、2つのチップを連結することで、Nvidiaはメモリインターフェースに割り当てるダイ面積を比例して削減できます。

2つ目に考慮すべき点は、理論上の最大演算性能が20ペタフロップスであることです。Blackwell B200は新しいFP4数値形式を採用することでこの数値を実現し、Hopper H100のFP8形式の2倍のスループットを実現しています。つまり、同一条件でFP8のみを比較した場合、B200はH100(スパース性あり)の理論上のFP8演算性能のわずか2.5倍しか提供できず、その大部分はチップを2つ搭載していることに起因しています。

これは興味深い指摘ですが、4NPプロセスノードによる密度の大幅な向上が見られなかったという点に再び繋がります。B200は、H100とB200の両方でサポートされているほとんどの数値形式において、理論上チップあたりの演算能力が1.25倍になります。HBM3インターフェースを2つ削除し、チップサイズをわずかに大きくしても、チップレベルでの演算密度はそれほど向上しない可能性があります。もちろん、2つのチップ間のNV-HBIインターフェースもダイ面積をある程度占有します。

NvidiaはB200で他の数値形式の生の演算処理も提供しており、通常のスケーリング係数が適用されます。そのため、FP8のスループットはFP4の半分の10ペタフロップス、FP16/BF16のスループットはFP8のさらに半分の5ペタフロップス、TF32のサポートはFP16の半分の2.5ペタフロップスです。これらはすべてスパース性を考慮したものであり、高密度演算の場合は半分のレートになります。繰り返しますが、いずれの場合も単一のH100の2.5倍の性能です。

FP64のスループットはどうでしょうか?H100は、GPUあたり60テラフロップスの高密度FP64演算性能と評価されています。B200が他のフォーマットと同様のスケーリング性能を持っていれば、デュアルダイGPUあたり150テラフロップスの性能を持つことになります。しかし、NvidiaはFP64性能をGPUあたり45テラフロップスと、やや抑えているようです。しかし、これには明確な説明が必要です。というのも、主要な構成要素の一つがGB200スーパーチップだからです。GB200は2基のB200 GPUを搭載し、90テラフロップスの高密度FP64演算を実行できます。他にも、H100と比較して、従来のシミュレーションにおける生のスループットを向上させる可能性のある要因があります。

FP4の利用に関しては、Nvidiaは新しい第2世代Transformer Engineを搭載しており、モデルを適切なフォーマットに自動変換することで最大限のパフォーマンスを実現します。BlackwellはFP4のサポートに加え、FP4では必要な精度が不足しているもののFP8も必要ない場合の中間的なソリューションとなる新しいFP6フォーマットもサポートします。最終的な精度に関わらず、Nvidiaはこのようなユースケースを「Mixture of Experts(MoE)」モデルと分類しています。

スワイプして水平にスクロールします

Nvidia Blackwellのバリエーション
プラットフォームGB200B200B100HGX B200HGX B100
構成2x B200 GPU、1x Grace CPUブラックウェルGPUブラックウェルGPU8x B200 GPU8x B100 GPU
FP4 テンソル密/疎20/40ペタフロップス9/18ペタフロップス7/14ペタフロップス72/144ペタフロップス56/112ペタフロップス
FP6/FP8 テンソル密/疎10/20ペタフロップス4.5/9ペタフロップス3.5/7ペタフロップス36/72ペタフロップス28/56ペタフロップス
INT8 テンソル 稠密/疎10/20 ペタオプス4.5/9 ペタオプス3.5/7 ペタオプス36/72 ペタオプス28/56 ペタオプス
FP16/BF16 テンソル 稠密/疎5/10ペタフロップス2.25/4.5ペタフロップス1.8/3.5ペタフロップス18/36ペタフロップス14/28ペタフロップス
TF32 テンソル密/疎2.5/5ペタフロップス1.12/2.25ペタフロップス0.9/1.8ペタフロップス9/18ペタフロップス7/14ペタフロップス
FP64 テンソル密90テラフロップス40テラフロップス30テラフロップス320テラフロップス240テラフロップス
メモリ384GB (2x8x24GB)192GB(8x24GB)192GB(8x24GB)1536GB (8x8x24GB)1536GB (8x8x24GB)
帯域幅16 TB/秒8 TB/秒8 TB/秒64 TB/秒64 TB/秒
NVLink帯域幅2x 1.8 TB/秒1.8 TB/秒1.8 TB/秒14.4 TB/秒14.4 TB/秒
最大2700W1000W700W8000Wですか?5600Wですか?

Blackwellには複数の異なるバリエーションが存在するため、いくつか明確にしておく必要があります。Nvidiaは当初、フルサーバーノードの仕様を公開しており、主に3つのオプションがあります。また、HGX構成に基づいて、2つの「シングル」GPUを分類しました。

最大かつ最速のソリューションはGB200スーパーチップです。これについては後ほど詳しく説明しますが、前述の通り、このチップには2つのB200 GPUが搭載されています。このスーパーチップ全体のTDPは最大2700Wまで設定可能です。これは、2つのGPU(GPUダイ4個)と1つのGrace CPUで実現できます。先ほど示した数値(1つのB200でFP4演算で最大20ペタフロップス)は、GB200スーパーチップの半分の性能です。スーパーチップ内の1つのB200 GPUで設定可能なTDPは、ピーク時で最大1200W、2つのGPUで最大2400W、Grace CPUで最大300Wまで可能です。

Blackwellの次の選択肢はHGX B200です。これは、単一のサーバーノードに8基のB200 GPUとx86 CPU(おそらく2基)を搭載するものです。B200 GPUあたり1000Wの構成で、FP4スループットは最大18ペタフロップスです。つまり、理論上はGB200のGPUよりも10%遅いことになります。

最後に、HGX B100も登場します。x86 CPUと8基のB100 GPUを搭載するHGX B200と基本的な構成は同じですが、既存のHGX H100インフラストラクチャとの互換性を確保し、Blackwell GPUを迅速に導入できる設計となっています。そのため、GPUあたりのTDPはH100と同じ700Wに制限され、スループットはFP4でGPUあたり14ペタフロップスに低下します。B200とB100という名称の由来は、TDPの違い以外にもハードウェア上の差異にあると考えられます。

注目すべきは、これら3つのサーバーすべてにおいて、HBM3eの帯域幅はGPUあたり8TB/秒で同じであるということです。下位層では、おそらくハーベストダイが採用されていると考えられます。つまり、GPUコア数が少なく、クロック周波数も低い可能性があり、TDPも異なるということです。しかし、NvidiaはBlackwell GPUに搭載されるCUDAコア数やストリーミングマルチプロセッサ数について、まだ詳細を明らかにしていません。

エヌビディア NVLink 7.2T

画像

1

7

Nvidia Blackwell プラットフォームトレイ
左がNVLink、右がB200 (画像提供:Tom's Hardware)

問題は、単にコンピューティング能力やメモリ帯域幅だけではありません。AIやHPCワークロードにおける大きな制約要因の一つは、異なるノード間の通信におけるマルチノードインターコネクト帯域幅です。GPUの数が増えるにつれて、通信は深刻なボトルネックとなり、利用されるリソースと時間の最大60%を占めることがあります。B200では、Nvidiaは第5世代のNVLinkとNVLinkスイッチ7.2Tを発表しました。

新しいNVSwitchチップは、全方向双方向で1.8TB/sの帯域幅を備え、576 GPU NVLinkドメインをサポートします。TSMC 4NPノードで製造された500億トランジスタのチップで、Hopper H100とほぼ同等のサイズであり、インターコネクトの重要性が高まっていることを示しています。また、このチップは3.6テラフロップスのSharp v4インネットワーク・コンピューティング・オン・チップをサポートしており、大規模モデルの効率的な処理に役立ちます。この処理能力はすべて、ワークロードのインテリジェントな負荷分散に活用できます。

GTC 2024

(画像提供:Tom's Hardware)

前世代では最大100GB/秒のHDR InfiniBand帯域幅をサポートしていたため、今回の帯域幅の大幅な向上は大きな成果です。新しいNVSwitchは、H100マルチノードインターコネクトと比較して18倍の高速化を実現します。これにより、1兆パラメータモデルを含む大規模なAIネットワークのスケーリングが大幅に向上します。

これに関連して、Blackwell GPUにはそれぞれ18個の第5世代NVLink接続が搭載されています。これはH100の18倍のリンク数です。各リンクは双方向50GB/秒、つまりリンクあたり100GB/秒の帯域幅を提供し、これはより大規模なモデルへの拡張時に非常に役立ちます。ある意味では、大規模なGPUノードのグループを、あたかも単一の巨大なGPUであるかのように機能させることが可能になります。

エヌビディア B200 NVL72

画像

1

3

Nvidia Blackwell GTC 2024 基調講演
(画像提供:Nvidia)

上記をすべて組み合わせると、NVIDIAの新しいGB200 NVL72システムが完成します。これは基本的にフルラックソリューションで、1Uサーバー18台にそれぞれ2基のGB200スーパーチップが搭載されています。ただし、GB200スーパーチップの構成に関しては、前世代とは若干の違いがあります。GH100では、2基のB200 GPUと1基のGrace CPUがペアになっていますが、GH100では、1基のGrace CPUと1基のH100 GPUを組み合わせた、より小型のソリューションが採用されていました。

GB200 NVL72の各コンピューティングノードには2つのGB200スーパーチップが搭載されているため、1つのコンピューティングトレイには2つのGrace CPUと4つのB200 GPUが搭載され、FP4 AI推論で80ペタフロップス、FP8 AIトレーニングで40ペタフロップスの性能を発揮します。これらは液冷式の1Uサーバーであり、ラックに通常42ユニット設置されるスペースの大部分を占めます。

GB200スーパーチップ・コンピュート・トレイに加え、GB200 NVL72にはNVLinkスイッチ・トレイも搭載されます。こちらも1Uサイズの液冷式トレイで、トレイ1つにつきNVLinkスイッチが2基搭載され、ラック1台あたり9基のトレイが配置されています。各トレイは合計14.4TB/sの帯域幅に加え、前述のSharp v4コンピュートを搭載しています。

GB200 NVL72は、合計36基のGrace CPUと72基のBlackwell GPUを搭載し、FP8で720ペタフロップス、FP4で1,440ペタフロップスの演算性能を備えています。マルチノード帯域幅は130TB/秒で、NVIDIAによると、NVL72はAI LLM向けに最大27兆個のパラメータモデルを処理できます。残りのラックユニットは、ネットワークやその他のデータセンター要素に使用されます。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Nvidia B200 スーパーポッド

画像

1

6

Nvidia BlackwellとGTC 2024
(画像提供:Nvidia)

最後に、GB200システムを搭載した新しいSuperPODをご紹介します。最新のNVLinkチップは最大576基のGPUドメインをサポートすると先ほど述べました。これは重要なポイントです。新しいDGX SuperPODは、まさにその数のGB200 Blackwell GPUに拡張できるからです。各SuperPODには最大8基のGB200 NVL72システムを搭載でき、これはGrace CPU 288基とB200 GPU 576基に相当します。

完全なSuperPODは、240TBの高速メモリと11.5エクサフロップスのFP4演算能力、あるいは5.75エクサフロップスのFP8、あるいは2.88エクサフロップスのFP16演算能力を備え、それ自体がAIスーパーコンピュータとして申し分のない性能を備えています。インストールは多数のSuperPODに拡張可能で、Blackwell GPUとGrace CPUを数万基搭載することも可能です。

何も言及されていませんが、NVIDIAは既にGB200 SuperPODを新規スーパーコンピュータ、あるいは既存のEosスーパーコンピュータの拡張として導入し始めている、あるいは近々導入を開始すると推測されます。NVIDIAは、56台のSuperPODと合計32,000台以上のB200 GPUを搭載した仮想的な導入例を提供しました。これが実現すれば、645エクサフロップスのFP4演算性能、13PBのHBM3eメモリ、58PB/sのNVLink帯域幅、そして16.4ペタフロップスのネットワーク内演算性能を備えたAIスーパーコンピュータが実現することになります。

SuperPODは、最大1兆パラメータのAIデータセットまで拡張可能で、NVIDIAによると、H100ソリューションと比較して、各SuperPODはトレーニング性能が4倍、推論速度が最大30倍向上するという。また、従来のH100ベースのソリューションと比較して、エネルギー効率は最大25倍向上するとも主張しているが、この比較は必ずしも普遍的に当てはまるものではない。今回のケースでは、同数のGPUを使用し、「大規模モデル」を実行し、新しいFP4数値形式を使用している。

NVIDIAはDGX B200システムも提供する予定で、Graceの代わりにXeonまたはEPYCプロセッサを搭載するとみられます。これらのシステムは、特にx86のサポートが必要なワークロード向けです。NVIDIAによると、DGX B200はトレーニング速度を最大3倍、推論速度を最大15倍、消費電力を最大12倍向上させるとのことです。

従来のA100およびH100 SuperPODと同様に、これらはデータセンターやクラウドサービスプロバイダー向けに迅速なスケールアップソリューションを提供するように設計されています。NVIDIAはAmazon Web Services、Google Cloud、Oracle Cloudと連携し、GB200 NVL72ソリューションを提供しています。また、AWSは今後数か月以内に、20,000基以上のB200 GPU、4PBのHBM3eメモリ、400エクサフロップス以上のAIコンピューティング能力を備えたProject Ceibaを展開する予定です。

GTC 2024

(画像提供:Tom's Hardware)

ブラックウェルの力作

NvidiaはBlackwellとその関連技術で再び挑戦状を叩きつけている。同社は既にAI分野でトップの座を占めており、最大のボトルネックがどこにあるのか、そしてどのように対処すべきかを熟知している。コアGPUからインターリンク、ノード間通信に至るまで、Blackwellエコシステムは従来のソリューションの潜在的な欠点を補おうとしている。

これまでのHopper H100とAmpere A100ソリューションは、Nvidiaにとって非常に先見の明があり、成功を収めたことを証明しました。業界の今後の方向性を水晶玉で予見しようとしていた人は誰でも、これらのAIソリューションでそれを見事に捉えました。CEOのジェンセン氏は先日、Nvidiaの競合他社はAIソリューションを手放すことができなかったと皮肉を込めて語りました。これは、Nvidiaの優位性は「単なる幸運」だと主張する人々への反論と言えるでしょう。原因が何であれ、その結果、Nvidiaの最新の業績は前年比126%という驚異的な伸びを示し、データセンター部門では直近の四半期で前年同期比600%以上の成長を記録しました。

Blackwellの普及が当分の間、減速することはまずないでしょう。Nvidiaはデュアルチップ化と基盤ハードウェアの大幅な刷新により、GPUサイズを2倍以上に拡大しました。Grace Blackwell GB200スーパーチップもまた、さらなる強化を図っており、2基のB200 GPUと1基のGrace CPUを組み合わせた「スーパーチップ」モジュールを搭載しています。BlackwellはHopperよりもはるかに大規模なシステムに対応できるよう設計されており、より大規模なAIモデルの構築を可能にします。

BlackwellソリューションはHopperと比べてどれくらいのコストがかかるのでしょうか?Nvidiaは明言していませんが、H100 GPUは一般的に1GPUあたり約4万ドルで販売されており、Blackwellに関連するすべての要素を考慮すると、GPU1台あたり10万ドルという価格も不思議ではありません。

競争は当然ながら停滞しておらず、ほぼすべての大手テクノロジー企業がAIとディープラーニング、そしてAI革命の最前線に立つと謳っています。しかし、口先だけで語るのは簡単ではありません。Nvidiaは既にトップに立っています。同社は約10年前からAIに多額の投資を行い、今やその成果を享受しています。少なくとも今後1、2年は、Blackwellが最先端のAIシステムを支える存在となるでしょう。

Blackwell B200ハードウェアは、2024年後半に本格的な生産と出荷が開始される予定です。Nvidiaはまだ正確な時期を明言していませんが、今後数か月以内に詳細が明らかになる予定です。

ジャレッド・ウォルトンは、Tom's Hardwareのシニアエディターで、GPU全般を専門としています。2004年からテクノロジージャーナリストとして活躍し、AnandTech、Maximum PC、PC Gamerなどで執筆活動を行っています。初代S3 Virgeの「3Dデセラレータ」から最新のGPUまで、ジャレッドは最新のグラフィックストレンドを常に把握しており、ゲームパフォーマンスに関する質問は彼にお任せください。