48
イーロン・マスクは、xAIが今後5年間で5000万台の「H100相当」のAI GPUを目標としていると述べた。そのうち23万台のGPUには、Grokのトレーニング用に既に稼働している3万台のGB200も含まれている。
xAI の HGX H100 サーバー ラックの 4 つのバンクには、それぞれ 8 台のサーバーが格納されています。
(画像提供:ServeTheHome)

大手AI企業は、自社が現在使用している、あるいは将来的に使用する予定のGPUの数を誇示してきました。つい昨日、OpenAIは200万基のGPUを動かすインフラを構築する計画を発表しましたが、イーロン・マスク氏はさらに壮大な計画を明らかにしました。今後5年間でAI用に5000万基相当のH100 GPUを導入するというものです。H100相当の数は膨大に見えますが、実際に導入されるGPUの数はそれほど多くないかもしれません。消費電力はそれとは対照的です。

AIトレーニングに50エクサフロップス

1 つの Nvidia H100 GPU は、AI トレーニング用に約 1,000 FP16/BF16 TFLOPS を提供できます (これらは現在 AI トレーニングで最も人気のある形式です)。そのため、2030 年までに 5,000 万個のこのような AI アクセラレータが AI トレーニング用に 50 FP16/BF16 ExaFLOPS を提供する必要があります。現在のパフォーマンス向上の傾向に基づくと、これは今後 5 年間で十分に達成可能です。

Feynman Ultra GPUはわずか65万台

Nvidia (およびその他) が、Hopper 世代や Blackwell 世代よりもわずかに遅いペースで GPU の BF16/FP16 トレーニング パフォーマンスを拡張し続けると仮定すると、推測に基づくと、2028 年には 130 万個の GPU を使用して 50 BF16/FP16 ExaFLOPS が達成可能となり、2029 年には 65 万個の GPU を使用して達成可能となります。

xAI が Nvidia ハードウェアに費やす十分な資金を持っている場合、AI トレーニングで 50 ExaFLOPS に到達するという目標がさらに早く達成される可能性もあります。

Feynman Ultra の登場により必要な GPU が指数関数的に減少することを示すグラフ

(画像提供:Tom's Hardware)

イーロン・マスク氏のxAIは、AIトレーニング能力の強化に最新のGPUアクセラレータを最も迅速に導入している企業の一つです。同社は既に、Hopperアーキテクチャに基づくH100およびH200アクセラレータ20万台と、Blackwellアーキテクチャに基づくGB200ユニット3万台を搭載したColossus 1スーパークラスターを運用しています。さらに、同社は55万台のGB200およびGB300ノード(各ノードに2基のGPUが搭載されるため、クラスター全体で100万基以上のGPUを搭載)で構成されるColossus 2クラスターの構築を目指しており、マスク氏によると、最初のノードは今後数週間以内にオンラインになる予定です。

着実なパフォーマンスの向上

Nvidia (および他の企業) は最近、新しい AI アクセラレータのリリースを年 1 回に切り替えました。Nvidia のスケジュールは、今では当時の Intel の Tick-Tock モデルに似ていますが、この場合、既知のアーキテクチャの新しいプロセス テクノロジに切り替えるのではなく、単一の製造ノード (例: Blackwell -> Blackwell Ultra、Rubin -> Rubin Ultra) を使用したアーキテクチャ -> 最適化のアプローチについて説明しています。

このようなアプローチは、毎年大幅なパフォーマンス向上を保証し、ひいては長期的なパフォーマンスの劇的な向上につながります。例えば、Nvidiaは、Blackwell B200が2016年のPascal P100と比較して20,000倍の推論性能を実現し、約20,000 FP4 TFLOPSであると主張しています。これはP100の19 FP16 TFLOPSに対しての数値です。直接的な比較ではありませんが、この指標は推論タスクに関連します。また、生成トークンあたりのジュールで測定した場合、BlackwellはPascalの42,500倍のエネルギー効率を誇ります。

スワイプして水平にスクロールします

NvidiaエンタープライズGPUロードマップ

2022

2023

2024

2025

2026

2027

建築

ホッパー

ホッパー

ブラックウェル

ブラックウェル ウルトラ

ルービン

ルービン

グラフィックプロセッサ

H100

H200

B200

B300(ウルトラ)

VR200

VR300(ウルトラ)

プロセス技術

4N

4N

4NP

4NP

N3P (3NP?)

N3P (3NP?)

物理構成

レチクルサイズのGPU x 1

レチクルサイズのGPU x 1

レチクルサイズのGPU 2個

レチクルサイズのGPU 2個

レチクルサイズのGPU x 2、I/Oチップレット x 2

レチクルサイズのGPU x 4、I/Oチップレット x 2

FP4 PFLOP(パッケージあたり)

-

-

10

15

50

100

FP8/INT6 PFLOP(パッケージあたり)

2

2

4.5

10

?

?

INT8 PFLOPS(パッケージあたり)

2

2

4.5

0.319

?

?

BF16 PFLOP(パッケージあたり)

0.99

0.99

2.25

5

?

?

TF32 PFLOP(パッケージあたり)

0.495

0.495

1.12

2.5

?

?

FP32 PFLOP(パッケージあたり)

67

67

1.12

0.083

?

?

FP64/FP64 Tensor TFLOPs(パッケージあたり)

34/67

34/67

40

1.39

?

?

メモリ

80 GB HBM3

141 GB HBM3E

192 GB HBM3E

288 GB HBM3E

288 GB HBM4

1TB HBM4E

メモリ帯域幅

3.35 TB/秒

4.8 TB/秒

8 TB/秒

4 TB/秒

13 TB/秒

32 TB/秒

GPU TDP

700ワット

700ワット

1200ワット

1400ワット

1800ワット

3600ワット

CPU

72コアのGrace

72コアのGrace

72コアのGrace

72コアのGrace

88コアのVera

88コアのVera

実際、Nvidiaをはじめとする各社は、パフォーマンス向上のペースを緩めていません。Blackwell Ultraアーキテクチャ(B300シリーズ)は、AI推論において、従来のBlackwell GPU(10 FPLOPS)と比較してFP4パフォーマンスが50%向上(15 FPLOPS)し、AIトレーニングにおいてはBF16およびTF32フォーマットで2倍のパフォーマンスを実現しています。ただし、その代償としてINT8、FP32、FP64のパフォーマンスは低下しています。ちなみに、BF16とFP16はAIトレーニングで一般的に使用されるフォーマットです(ただし、FP8も評価されているようです)。そのため、Nvidiaが次世代Rubin、Rubin Ultra、Feynman、Feynman Ultra GPUでこれらのフォーマットのパフォーマンスを向上させることは当然期待できます。

グラフ上での Nvidia GPU FP16 および BF16 パフォーマンスの指数関数的増加。

(画像提供:Tom's Hardware)

計算方法にもよりますが、NvidiaはH100でFP16/BF16のパフォーマンスをA100と比較して3.2倍、B200でH100と比較して2.4倍、B300でB200と比較して2.2倍向上させました。もちろん、実際のトレーニングパフォーマンスは、新しいGPUの純粋な数学パフォーマンスだけでなく、メモリ帯域幅、モデルサイズ、並列性(ソフトウェア最適化と相互接続パフォーマンス)、そして累積のためのFP32の使用にも依存します。しかし、Nvidiaは新世代のGPUごとにトレーニングパフォーマンス(FP16/BF16形式)を2倍にすることができると言っても過言ではありません。

Nvidia が Rubin アーキテクチャと Feynman アーキテクチャに基づく今後の 4 世代の AI アクセラレータで前述のパフォーマンス向上を達成できると仮定すると、2029 年までに約 50 BF16/FP16 ExaFLOPS に到達するには約 650,000 個の Feynman Ultra GPU が必要になることは容易に推測できます。

膨大な電力消費

イーロン・マスクのxAIやおそらく他のAIリーダーたちは、今後4、5年でAIトレーニング用に50 BF16/FP16エクサフロップスを実現するでしょうが、大きな疑問は、そのようなスーパークラスターがどれだけの電力を消費するのかということです。そして、1基の電力を供給するために、一体いくつの原子力発電所が必要になるのでしょうか?

H100 AIアクセラレータ1基の消費電力は700Wであるため、これらのプロセッサを5,000万基搭載すると35ギガワット(GW)を消費することになります。これは原子力発電所35基分の標準的な発電量に相当し、今日これほど大規模なデータセンターに電力を供給することは非現実的です。Rubin Ultraのクラスターでさえ約9.37GWを必要とし、これはフランス領ギアナの消費電力に匹敵します。Feynmanアーキテクチャでは、BF16/FP16のワットあたりの性能がRubinアーキテクチャの2倍になると仮定しても(あくまで推測であることに留意してください)、50エクサフロップスのクラスターには依然として4.685GWが必要となり、これは約100万基のAIアクセラレータを搭載したxAIのColossus 2データセンターに必要な1.4GW~1.96GWをはるかに超えます。

スワイプして水平にスクロールします

GPUモデル

TFLOPS(高密度)

GPUあたりの電力(W)

必要なGPU

総電力(GW)

H100

1,000

700

50,000,000

35

B200

2,400

1,200

20,833,333

25.00

B300

4,800

1,400

10,416,666

14.58

ルービン

9,600

1,800

5,208,333

9.37

ルビン・ウルトラ

19,200

3,600

2,604,166

9.37

ファインマン

38,400

?

1,302,083

4.685 (?)

イーロン・マスクのxAIは、2028年から2030年にかけて、50エクサフロップスのデータセンターに供給できる4.685GWの電力を供給できるでしょうか?それはまだ未知数です。

Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。