12
Nvidiaの次世代AI GPUはそれぞれ驚異の1000ワットを消費する可能性があり、これは40%の増加となる。Dellは決算説明会でB100とB200について詳細を明かした。
Nvidia GH200 SC23 発表
(画像提供:Nvidia)

世界最大級のサーバーメーカーであるDellが、Nvidiaの次期AI GPU(コードネームBlackwell)に関する情報を漏らしました。これらのプロセッサは最大1000ワットの消費電力を誇り、前世代機と比べて40%の電力増加となるため、DellはこれらのGPUの冷却にエンジニアリングの独創性を駆使する必要があるようです。Dellのコメントは、Nvidiaの次期コンピューティングGPUのアーキテクチャ上の特徴を示唆している可能性もあります。  

「H200とそのパフォーマンス向上に期待を寄せているのは言うまでもありません」と、デルの最高財務責任者(CFO)であるイヴォンヌ・マクギル氏は述べた。「B100とB200で何が起きているのかにも期待しています。そして、そこにこそエンジニアリングの信頼性を際立たせるもう一つの機会があると考えています。熱特性に関する当社の特性評価では、GPUあたり1,000ワットのエネルギー密度を実現するために、直接的な液体冷却はまったく必要ありません。」 

スワイプして水平にスクロールします

トムズハードウェアNvidia H100(現行)Nvidia B100 (Dell 推定)AMD MI300XNvidia H200(現行)
FP16/bf16 TFLOPS989?1307989
消費電力700W1000W750W700W
ダイサイズ(平方ミリメートル)814?1017814

Nvidia の Blackwell アーキテクチャに関する計画は不明ですが、熱放散に関する基本的な経験則を参照することしかできません。それによれば、熱放散は通常、チップ ダイ領域の 1 平方ミリメートルあたり約 1W で上限が決まります。 

チップ製造の観点から興味深いのは、ここです。NVIDIAのH100(カスタム4nmプロセス技術で製造)は、HBMメモリの電力を含めても既に約700Wの消費電力を誇ります。チップダイは814の2乗平方インチ(約814平方メートル)なので、1平方ミリメートルあたり1W未満です。このダイは、TSMCのカスタム性能強化型4nmプロセス技術で製造されています。

NVIDIAの次世代GPUは、おそらく別のパフォーマンス強化プロセス技術を採用すると思われますが、3nmクラスのプロセス技術で製造されると推測されます。チップの消費電力と必要な放熱量を考慮すると、NVIDIAのB100は同社初のデュアルダイ設計となり、発生する熱を処理するための表面積が大きくなると考えるのが妥当でしょう。AMDとIntelは既にマルチダイGPUアーキテクチャを採用しており、これは他の業界トレンドと一致するでしょう。

高性能AIおよびHPCアプリケーションにおいては、FLOPSで測定されるパフォーマンスと、そのFLOPSを達成するために必要な電力、そして発生する熱エネルギーを冷却するために必要な電力を考慮する必要があります。ソフトウェア開発者にとって重要なのは、これらのFLOPSをいかに効率的に使用するかです。ハードウェア開発者にとって重要なのは、これらのFLOPSを生み出すプロセッサをいかに冷却するかです。Dellは、自社の技術が競合他社を凌駕する可能性があると述べており、これがDellのCFOがNVIDIAの次世代Blackwell GPUについて言及した理由です。

「それは来年B200で実現します」と、マギル氏はNVIDIAの次世代AI・HPC GPUについて語った。「これは、私たちのエンジニアリングと、そのスピード、そして業界リーダーとして私たちが液体冷却を大規模に実行するための専門知識を披露する機会です。流体化学と性能、インターコネクト技術、テレメトリ技術、電力管理技術など、あらゆる面で、私たちは液体冷却を大規模に実行するための専門知識を結集してきました。これにより、市場に存在するであろう驚異的な計算能力、強度、あるいは機能を最大限に活用し、それらを大規模に市場に投入する準備が整います。」   

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。