70
AIワークロードの電力消費は小国に近づく:レポート
インテル
(画像提供:Intel)

AIの需要は近年、莫大な規模に拡大しています。フランスのシュナイダーエレクトリック社は、AIワークロードの電力消費量は2023年には約4.3GWになると予測しています。これは、2021年のキプロス共和国の電力消費量(4.7GW)をわずかに下回る水準です。同社は、AIワークロードの電力消費量が年平均成長率(CAGR)26%から36%で増加すると予測しており、2028年までにAIワークロードの電力消費量は13.5GWから20GWに達すると予測しています。これは、アイスランドの2021年の消費量を上回る規模です。

膨大な電力要件

シュナイダーエレクトリックによると、2023年には全データセンターの総電力消費量は54GWと推定され、そのうちAIワークロードが4.3GWを占めるとされています。これらのAIワークロードにおける学習と推論の配分は、消費電力の20%が学習目的で、80%が推論タスクに割り当てられるという特徴があります。つまり、今年のデータセンターの総電力消費量の約8%をAIワークロードが占めることになります。  

シュナイダーエレクトリックは、2028年を見据え、データセンターの総電力消費量が90GWに増加し、そのうちAIワークロードが13.5GWから20GWを消費すると予測しています。これは、2028年までにAIがデータセンターの総電力消費量の約15%から20%を占める可能性があることを示しており、今後5年間でデータセンターにおけるAIワークロードの電力消費量の割合が大幅に増加することを示しています。シュナイダーエレクトリックの推定によると、トレーニングと推論の配分はわずかに変化し、トレーニングが電力消費量の15%、推論が85%を占めると予想されています。

AI GPUの消費量増加

AIデータセンターにおける消費電力の増加は、主にAIワークロードの激化、AI GPUおよびAIプロセッサの進化、そしてデータセンターにおけるその他のハードウェア要件の増大に起因しています。例えば、2020年のNvidia A100は最大400Wを消費しましたが、2022年のH100は最大700Wを消費します。AIサーバーでは、GPUに加えて、消費電力の高いCPUやネットワークカードも稼働しています。

AIワークロード、特にトレーニングに関連するものは、AI GPU、専用ASIC、またはCPUを搭載した専用サーバーを含む、かなりの計算リソースを必要とします。AIクラスターのサイズは、AIモデルの複雑さと規模に影響され、消費電力の主な決定要因です。大規模なAIモデルではより多くのGPUが必要になるため、全体的なエネルギー要件が増加します。たとえば、22,000個のH100 GPUを備えたクラスターは約700ラックを使用します。H100ベースのラックに8台のHPE Cray XD670 GPUアクセラレーションサーバーを搭載すると、合計ラック密度は80kWになります。その結果、シュナイダーエレクトリックによると、冷却などの追加のインフラストラクチャニーズに必要なエネルギーを除いて、クラスター全体で約31MWの電力が必要になります。

これらのクラスターとGPUは、学習プロセス全体を通してほぼフル稼働することが多く、平均エネルギー使用量はピーク時の消費電力とほぼ同義になります。この文書では、大規模なAIクラスターにおけるラック密度は、GPUの数量とモデルに応じて30kWから100kWの範囲で変化すると規定されています。

AIデータセンターの電力消費において、ネットワークレイテンシも重要な役割を果たします。分散学習プロセスにおいて、強力なGPUが要求する高速データ通信をサポートするには、高度なネットワークインフラストラクチャが不可欠です。最大800Gbpsの速度をサポートできるような高速ネットワークケーブルやインフラストラクチャの必要性が、全体的なエネルギー消費をさらに増大させます。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

AIワークロードは電力消費量の多いASIC、GPU、CPU、ネットワークカード、SSDを必要とするため、冷却は大きな課題となります。ラック密度が高く、計算処理中に膨大な熱が発生するため、最適なパフォーマンスを維持し、ハードウェアの誤動作や故障を防ぐには、効果的な冷却ソリューションが不可欠です。一方、空冷や液冷方式は消費電力の面で「高価」であるため、AIワークロードに使用されるデータセンターの電力消費に大きく影響しています。

いくつかの推奨事項

シュナイダーエレクトリックは、AIハードウェアの消費電力がすぐに低下するとは予想しておらず、AIラックの消費電力は100kW以上に達すると見込んでいます。そのため、シュナイダーエレクトリックはAIワークロードに特化したデータセンター向けにいくつかの推奨事項を提示しています。 

特にシュナイダーエレクトリックは、AIワークロードの高い電力密度に対応するため、従来の120/208Vから240/415Vへの電源供給への移行を推奨しています。冷却に関しては、プロセッサの信頼性とエネルギー効率を向上させるために空冷から液冷への移行が推奨されますが、浸漬冷却の方がさらに優れた結果が得られる可能性があります。使用するラックは、幅750mm以上、静的耐荷重1,800kg以上など、より大容量のものを使用する必要があります。 

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。