46
NvidiaがBlackwell Ultra B300を発表 — 288GB HBM3eと15PFLOPSの高密度FP4を搭載し、B200より1.5倍高速
エヌビディア ブラックウェル ウルトラ B300
(画像提供:Nvidia)

NVIDIA Blackwell Ultra B300データセンターGPUは、本日、カリフォルニア州サンノゼで開催されたGTC 2025において、CEOのジェンスン・フアン氏による基調講演で発表されました。既存のB200ソリューションと比較して50%増のメモリとFP4コンピューティング能力を備えたこのGPUは、より高速で高性能なAIモデルの開発競争において、新たな可能性を秘めています。NVIDIAは、このGPUを「推論の時代に向けて構築された」と表現しており、DeepSeek R1のような、単に消化済みの情報を繰り返す以上の機能を持つ、より高度なAI LLM(論理的推論モデル)に言及しています。

当然のことながら、Blackwell Ultra B300は単一のGPUだけではありません。B300の基本構成に加え、新しいB300 NVL16サーバーラックソリューション、GB300 DGXステーション、そしてGB300 NV72Lフルラックソリューションが提供されます。NV72Lラックを8台組み合わせると、Blackwell Ultra DGX SuperPODのフルバージョンが完成します。Grace CPU 288基、Blackwell Ultra GPU 576基、HBM3eメモリ300TB、FP4演算11.5エクサフロップスを搭載します。これらを連携させることで、NVIDIAが「AIファクトリー」と呼ぶスーパーコンピュータソリューションを構築できます。

NvidiaはBlackwell UltraのFP4コンピューティングの密度が1.5倍になると発表していますが、他のコンピューティングでも同様のスケーリングが実現されているかどうかは不明です。これは当然のことと予想されますが、Nvidiaが単にSMを増やし、クロックをブーストし、HBM3eスタックの容量を増やす以上のことを行っている可能性も否定できません。例えば、FP8モードやFP16モードではクロックがわずかに遅くなる可能性があります。しかし、ここでは他のデータ(疑問符で示しています)から推測したコアスペックをお伝えします。

画像

1

12

Nvidia Blackwell Ultra B300 ラックおよびサーバー
(画像提供:Tom's Hardware)

スワイプして水平にスクロールします

Nvidia Blackwell Ultra B300 vs Blackwell B200

プラットフォーム

B300

B200

B100

構成

ブラックウェルGPU

ブラックウェルGPU

ブラックウェルGPU

FP4 テンソル密/疎

15/30ペタフロップス

10/20ペタフロップス

7/14ペタフロップス

FP6/FP8 テンソル密/疎

7.5/15 ペタフロップス?

5/10ペタフロップス

3.5/7ペタフロップス

INT8 テンソル 稠密/疎

7.5/15 ペタオプス ?

5/10 ペタオプス

3.5/7 ペタオプス

FP16/BF16 テンソル 稠密/疎

3.75/7.5ペタフロップス?

2.5/5ペタフロップス

1.8/3.5ペタフロップス

TF32 テンソル密/疎

1.88/3.75ペタフロップス?

1.25/2.5ペタフロップス

0.9/1.8ペタフロップス

FP64 テンソル密

68テラフロップス?

45テラフロップス

30テラフロップス

メモリ

288GB(8x36GB)

192GB(8x24GB)

192GB(8x24GB)

帯域幅

8 TB/秒?

8 TB/秒

8 TB/秒

?

1300W

700W

Blackwell Ultra B300の性能と詳細について説明を求めたところ、「Blackwell Ultra GPU(GB300およびB300)は、Blackwell GPU(GB200およびB200)とは異なるチップです。Blackwell Ultra GPUは、FP4コンピューティングを1.5倍に増強することで、テスト時間のスケーリング推論の需要を満たすように設計されています」と回答されました。つまり、B300はより多くのテンソルコアをパッケージに収めるために、物理的に大型のチップになっているということでしょうか?そのようですが、さらなる詳細を待ちたいと思います。

明らかなのは、新しいB300 GPUがB200よりも大幅に高い計算スループットを提供することです。オンパッケージメモリが50%増加したことで、より多くのパラメータを持つより大規模なAIモデルの構築が可能になり、それに伴うコンピューティング性能も確実に向上します。

Nvidiaは潜在的なパフォーマンスの例をいくつか示しましたが、Hopperと比較したものだったので、状況は曖昧になっています。B200とB300を同様の構成、具体的には同じGPU数で比較したデータがあれば良かったのですが、現状ではそれができません。

NVIDIAによると、FP4命令を活用し、B300と新しいDynamoソフトウェアライブラリを併用することで、DeepSeekなどの推論モデルのサポートが可能になり、NV72Lラックは同等のHopper構成と比較して30倍の推論性能を実現できるという。この数値は製品スタックの複数の領域の改善から導き出されたものであり、NVLinkの高速化、メモリの増強、演算能力の向上、そしてFP4の採用などがこの計算に反映されている。

関連する例として、Blackwell UltraはDeepSeek R1-671Bモデルで最大1,000トークン/秒のスループットを実現し、さらに高速化しています。一方、Hopperは最大100トークン/秒にとどまっています。つまり、スループットは10倍向上し、大規模なクエリの処理時間は1.5分から10秒に短縮されます。

B300製品は年末、つまり下半期中に出荷開始される予定です。おそらく今回はパッケージングの不具合もなく、遅延も発生しないと思われますが、NVIDIAは前年度、Blackwell B200/B100で110億ドルの売上高を計上したと発表しています。来年にはこの数字が劇的に増加すると予想されていると言っても過言ではありません。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ジャレッド・ウォルトンは、Tom's Hardwareのシニアエディターで、GPU全般を専門としています。2004年からテクノロジージャーナリストとして活躍し、AnandTech、Maximum PC、PC Gamerなどで執筆活動を行っています。初代S3 Virgeの「3Dデセラレータ」から最新のGPUまで、ジャレッドは最新のグラフィックストレンドを常に把握しており、ゲームパフォーマンスに関する質問は彼にお任せください。