
大手AI企業は、自社が現在使用している、あるいは将来的に使用する予定のGPUの数を誇示してきました。つい昨日、OpenAIは200万基のGPUを動かすインフラを構築する計画を発表しましたが、イーロン・マスク氏はさらに壮大な計画を明らかにしました。今後5年間でAI用に5000万基相当のH100 GPUを導入するというものです。H100相当の数は膨大に見えますが、実際に導入されるGPUの数はそれほど多くないかもしれません。消費電力はそれとは対照的です。
AIトレーニングに50エクサフロップス
1 つの Nvidia H100 GPU は、AI トレーニング用に約 1,000 FP16/BF16 TFLOPS を提供できます (これらは現在 AI トレーニングで最も人気のある形式です)。そのため、2030 年までに 5,000 万個のこのような AI アクセラレータが AI トレーニング用に 50 FP16/BF16 ExaFLOPS を提供する必要があります。現在のパフォーマンス向上の傾向に基づくと、これは今後 5 年間で十分に達成可能です。
Feynman Ultra GPUはわずか65万台
Nvidia (およびその他) が、Hopper 世代や Blackwell 世代よりもわずかに遅いペースで GPU の BF16/FP16 トレーニング パフォーマンスを拡張し続けると仮定すると、推測に基づくと、2028 年には 130 万個の GPU を使用して 50 BF16/FP16 ExaFLOPS が達成可能となり、2029 年には 65 万個の GPU を使用して達成可能となります。
xAI が Nvidia ハードウェアに費やす十分な資金を持っている場合、AI トレーニングで 50 ExaFLOPS に到達するという目標がさらに早く達成される可能性もあります。
イーロン・マスク氏のxAIは、AIトレーニング能力の強化に最新のGPUアクセラレータを最も迅速に導入している企業の一つです。同社は既に、Hopperアーキテクチャに基づくH100およびH200アクセラレータ20万台と、Blackwellアーキテクチャに基づくGB200ユニット3万台を搭載したColossus 1スーパークラスターを運用しています。さらに、同社は55万台のGB200およびGB300ノード(各ノードに2基のGPUが搭載されるため、クラスター全体で100万基以上のGPUを搭載)で構成されるColossus 2クラスターの構築を目指しており、マスク氏によると、最初のノードは今後数週間以内にオンラインになる予定です。
着実なパフォーマンスの向上
Nvidia (および他の企業) は最近、新しい AI アクセラレータのリリースを年 1 回に切り替えました。Nvidia のスケジュールは、今では当時の Intel の Tick-Tock モデルに似ていますが、この場合、既知のアーキテクチャの新しいプロセス テクノロジに切り替えるのではなく、単一の製造ノード (例: Blackwell -> Blackwell Ultra、Rubin -> Rubin Ultra) を使用したアーキテクチャ -> 最適化のアプローチについて説明しています。
このようなアプローチは、毎年大幅なパフォーマンス向上を保証し、ひいては長期的なパフォーマンスの劇的な向上につながります。例えば、Nvidiaは、Blackwell B200が2016年のPascal P100と比較して20,000倍の推論性能を実現し、約20,000 FP4 TFLOPSであると主張しています。これはP100の19 FP16 TFLOPSに対しての数値です。直接的な比較ではありませんが、この指標は推論タスクに関連します。また、生成トークンあたりのジュールで測定した場合、BlackwellはPascalの42,500倍のエネルギー効率を誇ります。
スワイプして水平にスクロールします
年 | 2022 | 2023 | 2024 | 2025 | 2026 | 2027 |
建築 | ホッパー | ホッパー | ブラックウェル | ブラックウェル ウルトラ | ルービン | ルービン |
グラフィックプロセッサ | H100 | H200 | B200 | B300(ウルトラ) | VR200 | VR300(ウルトラ) |
プロセス技術 | 4N | 4N | 4NP | 4NP | N3P (3NP?) | N3P (3NP?) |
物理構成 | レチクルサイズのGPU x 1 | レチクルサイズのGPU x 1 | レチクルサイズのGPU 2個 | レチクルサイズのGPU 2個 | レチクルサイズのGPU x 2、I/Oチップレット x 2 | レチクルサイズのGPU x 4、I/Oチップレット x 2 |
FP4 PFLOP(パッケージあたり) | - | - | 10 | 15 | 50 | 100 |
FP8/INT6 PFLOP(パッケージあたり) | 2 | 2 | 4.5 | 10 | ? | ? |
INT8 PFLOPS(パッケージあたり) | 2 | 2 | 4.5 | 0.319 | ? | ? |
BF16 PFLOP(パッケージあたり) | 0.99 | 0.99 | 2.25 | 5 | ? | ? |
TF32 PFLOP(パッケージあたり) | 0.495 | 0.495 | 1.12 | 2.5 | ? | ? |
FP32 PFLOP(パッケージあたり) | 67 | 67 | 1.12 | 0.083 | ? | ? |
FP64/FP64 Tensor TFLOPs(パッケージあたり) | 34/67 | 34/67 | 40 | 1.39 | ? | ? |
メモリ | 80 GB HBM3 | 141 GB HBM3E | 192 GB HBM3E | 288 GB HBM3E | 288 GB HBM4 | 1TB HBM4E |
メモリ帯域幅 | 3.35 TB/秒 | 4.8 TB/秒 | 8 TB/秒 | 4 TB/秒 | 13 TB/秒 | 32 TB/秒 |
GPU TDP | 700ワット | 700ワット | 1200ワット | 1400ワット | 1800ワット | 3600ワット |
CPU | 72コアのGrace | 72コアのGrace | 72コアのGrace | 72コアのGrace | 88コアのVera | 88コアのVera |
実際、Nvidiaをはじめとする各社は、パフォーマンス向上のペースを緩めていません。Blackwell Ultraアーキテクチャ(B300シリーズ)は、AI推論において、従来のBlackwell GPU(10 FPLOPS)と比較してFP4パフォーマンスが50%向上(15 FPLOPS)し、AIトレーニングにおいてはBF16およびTF32フォーマットで2倍のパフォーマンスを実現しています。ただし、その代償としてINT8、FP32、FP64のパフォーマンスは低下しています。ちなみに、BF16とFP16はAIトレーニングで一般的に使用されるフォーマットです(ただし、FP8も評価されているようです)。そのため、Nvidiaが次世代Rubin、Rubin Ultra、Feynman、Feynman Ultra GPUでこれらのフォーマットのパフォーマンスを向上させることは当然期待できます。
計算方法にもよりますが、NvidiaはH100でFP16/BF16のパフォーマンスをA100と比較して3.2倍、B200でH100と比較して2.4倍、B300でB200と比較して2.2倍向上させました。もちろん、実際のトレーニングパフォーマンスは、新しいGPUの純粋な数学パフォーマンスだけでなく、メモリ帯域幅、モデルサイズ、並列性(ソフトウェア最適化と相互接続パフォーマンス)、そして累積のためのFP32の使用にも依存します。しかし、Nvidiaは新世代のGPUごとにトレーニングパフォーマンス(FP16/BF16形式)を2倍にすることができると言っても過言ではありません。
Nvidia が Rubin アーキテクチャと Feynman アーキテクチャに基づく今後の 4 世代の AI アクセラレータで前述のパフォーマンス向上を達成できると仮定すると、2029 年までに約 50 BF16/FP16 ExaFLOPS に到達するには約 650,000 個の Feynman Ultra GPU が必要になることは容易に推測できます。
膨大な電力消費
イーロン・マスクのxAIやおそらく他のAIリーダーたちは、今後4、5年でAIトレーニング用に50 BF16/FP16エクサフロップスを実現するでしょうが、大きな疑問は、そのようなスーパークラスターがどれだけの電力を消費するのかということです。そして、1基の電力を供給するために、一体いくつの原子力発電所が必要になるのでしょうか?
H100 AIアクセラレータ1基の消費電力は700Wであるため、これらのプロセッサを5,000万基搭載すると35ギガワット(GW)を消費することになります。これは原子力発電所35基分の標準的な発電量に相当し、今日これほど大規模なデータセンターに電力を供給することは非現実的です。Rubin Ultraのクラスターでさえ約9.37GWを必要とし、これはフランス領ギアナの消費電力に匹敵します。Feynmanアーキテクチャでは、BF16/FP16のワットあたりの性能がRubinアーキテクチャの2倍になると仮定しても(あくまで推測であることに留意してください)、50エクサフロップスのクラスターには依然として4.685GWが必要となり、これは約100万基のAIアクセラレータを搭載したxAIのColossus 2データセンターに必要な1.4GW~1.96GWをはるかに超えます。
スワイプして水平にスクロールします
GPUモデル | TFLOPS(高密度) | GPUあたりの電力(W) | 必要なGPU | 総電力(GW) |
H100 | 1,000 | 700 | 50,000,000 | 35 |
B200 | 2,400 | 1,200 | 20,833,333 | 25.00 |
B300 | 4,800 | 1,400 | 10,416,666 | 14.58 |
ルービン | 9,600 | 1,800 | 5,208,333 | 9.37 |
ルビン・ウルトラ | 19,200 | 3,600 | 2,604,166 | 9.37 |
ファインマン | 38,400 | ? | 1,302,083 | 4.685 (?) |
イーロン・マスクのxAIは、2028年から2030年にかけて、50エクサフロップスのデータセンターに供給できる4.685GWの電力を供給できるでしょうか?それはまだ未知数です。
Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。