NvidiaがBlackwell Ultraの秘密を公開 ― NVFP4ブーストの詳細とPCIe 6.0のサポート

（画像提供：Nvidia）

Nvidiaとそのパートナー企業は、同社のBlackwell Ultraアーキテクチャをベースにしたシステム、具体的にはGB300（Grace CPU搭載）とB300（x86 CPU搭載）の出荷と展開を少し前に開始しました。そして今回、Hot Chips 2025カンファレンスにおいて、同社は基盤となるアーキテクチャと、その「Blackwell Ultra」実装に関する追加情報を公開しました。

NVIDIAのBlackwellベースのB100/B200とBlackwell UltraベースのB300 GPUは、概ね非常に似ています。しかし、Blackwell Ultra B300シリーズは、NVFP4データフォーマットに最適化された新しいTensorコアを搭載しており、INT8とFP64の性能を犠牲にして、NVFP4 PetaFLOPS（高密度）性能が最大50%向上しています。また、HBM3Eメモリは186GBから288GBに増加し、ホストCPUとの相互接続はPCIe 5.0からPCIe 6.xに正式にサポートされています。これらの違いは、TDPが200W高く、1,200Wから1,400Wへと変更されたことで実現されています。

スワイプして水平にスクロールします

ブラックウェル vs ブラックウェルウルトラ
建築	ブラックウェル	ブラックウェルウルトラ
グラフィックプロセッサ	B200	B300（ウルトラ）
プロセス技術	4NP	4NP
物理構成	レチクルサイズのGPU 2個	レチクルサイズのGPU 2個
パッケージ	CoWoS-L	CoWoS-L
FP4 PFLOP（パッケージあたり）	10	15
FP8/INT6 PFLOP（パッケージあたり）	4.5	10
INT8 PFLOPS（パッケージあたり）	4.5	0.319
BF16 PFLOP（パッケージあたり）	2.25	5
TF32 PFLOP（パッケージあたり）	1.12	2.5
FP32 PFLOP（パッケージあたり）	1.12	0.083
FP64/FP64 Tensor TFLOPs（パッケージあたり）	40	1.39
メモリ	192 GB HBM3E	288 GB HBM3E
メモリ帯域幅	8 TB/秒	8 TB/秒
HBMスタック	8	8
PCIe	PCIe 5.x（64 GB/秒）	PCIe 6.x（128 GB/秒）
NVリンク	NVLink 5.0、200 GT/s	NVLink 5.0、200 GT/s
GPU TDP	1200ワット	1400ワット
CPU	72コアのGrace	72コアのGrace

NVFP4: 独自のハードウェアアクセラレーションによる独自のデータ形式

NVIDIAは2024年初頭にBlackwellプロセッサを初めて発表した際、すべてのプロセッサがAI推論とAI事前学習の両方に役立つ可能性のあるFP4データ形式をサポートしていることを明らかにしました。FP4は、IEEE 754規格（1ビット符号、2ビット指数、1ビット仮数）との互換性を維持しながら可能な限り「最小」の形式で、INT4（わずか4ビット）よりも柔軟性が高く、FP8やFP16形式よりも計算能力を必要としません。しかし、NVIDIAのBlackwellとBlackwell Ultraの場合、標準のFP4ではなく、NVIDIA独自のNVFP4形式です。

NVFP4は、NvidiaがBlackwellプロセッサ向けに開発したカスタム4ビット浮動小数点フォーマットで、学習と推論の両方のワークロードの電力効率を向上させます。このフォーマットスキームは、コンパクトなエンコーディングとマルチレベルスケーリングを組み合わせることで、BF16に近い精度を実現しながら、パフォーマンスとメモリ使用量を削減します。そのため、学習と推論の両方において特に有効です。

従来のFP4と同様に、NvidiaのNVFP4はコンパクトなE2M1レイアウト（1ビットの符号、2ビットの指数、1ビットの仮数）を採用し、約-6から+6までの数値範囲を提供します。しかし、このような小さなフォーマットの限られたダイナミックレンジに対処するため、Nvidiaは二重スケーリングアプローチを追加しました。16個のFP4値の各グループには、FP8（E4M3）に格納されたスケール係数が割り当てられ、テンソル全体にはFP32ベースのグローバル係数が適用されます。Nvidiaによると、この2層システムにより、4ビットによるパフォーマンス効率を損なうことなく、数値ノイズを低く抑えることができます。

精度に関しては、NVIDIAの社内調査によると、FP8との偏差は概ね1%未満であり、多くのワークロードでは、ブロックが小さいほど値の分布に密接に適応するため、パフォーマンスが向上する可能性があるとのことです。メモリ要件も大幅に削減され、FP8の約1.8倍、FP16の最大3.5倍にまで削減されます。これにより、NVLinkおよびNVSwitchファブリック全体のストレージおよびデータ移動のオーバーヘッドが削減されます。大規模クラスターを構築する開発者にとって、これはハードウェアの制限を超えることなく、より大きなバッチサイズやより長いシーケンスを実行できることを意味します。

推論とトレーニングのワークロード

NvidiaのBlackwellデータセンターGPUに関するマーケティング資料の大部分は、B200およびB300プロセッサが推論において従来製品と比較して優れた性能を発揮することを示しています。NvidiaがB200 Blackwell GPU上でOpenAI GPT-OSS 120Bモデルを使用したテストでは、スループットを犠牲にすることなく、インタラクティブ性が最大4倍に向上したとされています。DeepSeek-R1 671BモデルをGB200 NVL72ラックに導入したところ、推論コストを増加させることなく、プロセッサあたりのスループットが2.5倍に向上したとされています。トークンレイテンシが全体の容量と同様に重要となる、より高速な推論モデルへの需要が高まる中、Blackwellは期待に応えているようです。Nvidiaの主張が実際の使用状況において真実である限りは。

しかし、NVFP4は推論に限定されるものではありません。NVIDIAは、1兆トークン規模の事前学習に使用可能な初の4ビット浮動小数点形式としてNVFP4を提示しています。2,000億トークンで学習した70億パラメータモデルを用いた初期実験では、BF16に匹敵する結果が得られたとされています。これは、バックプロパゲーションと更新ステップで確率的丸めを適用し、フォワードパスでは近傍値への丸めを使用することで実現されています。結果として、NVFP4は推論の導入における優れた強化機能であるだけでなく、AIライフサイクル全体にわたって実行可能な形式となる可能性を秘めています。これは、ハイパースケールAIデータセンターにとって、大幅なコストとエネルギーの節約につながる可能性があります。

オープンソースフレームワークに統合

NVFP4はプロプライエタリですが、NVIDIAはオープンライブラリに組み込み、量子化済みモデルをリリースしています。Cutclass（GPUカーネルテンプレート）、NCCL（マルチGPU通信）、TensorRT Model Optimizerなどのフレームワークは既にNVFP4をサポートしています。また、NeMo、PhysicsNeMo、BioNeMoなどの高レベルフレームワークは、これらの機能を大規模言語、物理情報に基づくモデル、ライフサイエンスモデル向けに拡張しています。NVFP4は、Nemotron推論LLM、Cosmos物理AIモデル、ロボット工学向けIsaac GR00Tビジョン対応言語動作モデルでもサポートされています。

Nvidiaハードウェアでのみ利用可能。Blackwell Ultraで50%のブーストが可能。

NVFP4は推論と学習に多くのメリットをもたらし、オープンソースフレームワークへの統合も進められていますが、現在のところこのフォーマットをサポートしているのはNvidiaのみです。他の独立系ハードウェアベンダー（IHV）がNVFP4をサポートする可能性は低いでしょう。そのため、幅広いハードウェアで動作するモデルの構築を目指す開発者（特にハイパースケーラー）にとって、NVFP4の魅力は薄れる可能性があります。

NVIDIAはこの問題を理解しており、NVFP4はデータセンターハードウェアだけでなく、幅広いBlackwellプロセッサでサポートされていると主張しています。サーバー向けのB100/B200およびB300プロセッサに加え、同社のDGX Sparkマシン向けGB10ソリューションとGeForce RTX 5090はNVFP4を完全にサポートしています。ただし、NVIDIAはすべてのGB102ベースの製品でこれが当てはまるかどうかについては言及していません。

それにもかかわらず、NVFP4 に最適化された Tensor コアを備えているのは Nvidia の B300 GPU のみであり、INT8 や FP64 などの他の形式のパフォーマンスを犠牲にして NVFP4 パフォーマンスを大幅に向上させます。

PCIe Gen6をサポートする最初の公式GPU

NvidiaのBlackwell Ultraは、+50%のNVFP4ブーストと288GBのHBM3eメモリを搭載していることに加え、ホストCPUとのPCIe 6.x相互接続をサポートする公式初のデータセンターGPUですが、現在この機能を備えたプロセッサはGraceのみです。PCIe 6.0は、AIサーバーやAIクラスターにとって重要なPAM4シグナリングとFLITベースのエンコーディングにより、x16スロットあたり双方向128GB/秒の帯域幅を実現します。GPUがCPU、SSD、またはNICからデータを取得する速度を2倍にすることで、PCIe 6.0はクラスター全体のパフォーマンスを加速させます。これは過大評価しにくいものです。残念ながら、NvidiaはPCIe 6.x関連のその他のパフォーマンス強化については明らかにしていませんが、かなり大幅なものになるはずです。これらすべての詳細から、Blackwell Ultra は AI およびデータセンターのワークロードに適した高性能チップであることがわかります。また、NVFP4 は、ハイパースケーラーが他の IHV ではなく Nvidia を選択するもう 1 つの魅力的な理由を提供します。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。

Hardware