現代のデータセンター(DC)では、様々なタイプの冷却システムが採用されています。今日の多くのDCでは、ラック内を冷気で循環させ、熱気を排出する空冷方式が依然として主流ですが、この方式は現代の高出力CPUやGPUには適していません。NVIDIAのHopperを皮切りに、Blackwellへと拡大する中で、事業者は既存の空冷インフラと統合可能な液冷、特にコールドプレートやダイレクト・ツー・チップ・ソリューションへと移行しつつあります。
しかし、液浸冷却のようなより高度なシステムも存在するものの、性能密度、全体的なコスト、効率性において爆発的なメリットがあると謳われているにもかかわらず、普及は限定的です。しかし、次世代AIアクセラレータの消費電力は増加すると予想されるため、今後3~4年で液浸冷却は不可欠になる可能性があります。しかし、業界は既にその準備ができているのでしょうか?
データセンターはますます高温になっている
AIデータセンターは、気流、液体循環、熱交換システムを組み合わせて熱負荷を施設外へ排出することで放熱を行います。基本的な原理は、高温のチップ(CPU、GPU、スイッチ)から空気、水、または誘電性流体(水グリコールなど)といった媒体へと熱を移動させ、その熱を冷却塔、チラー、または蒸発装置へと運び、大気中に放出することです。

空冷式 DC では、サーバーが熱い排気を HVAC の戻りプレナムに送り込み、それがチラーまたは蒸発冷却塔で冷却されてから再循環されます。これは安価で実装も簡単ですが、Nvidia の Blackwell GPU (業界で最も電力を消費するプロセッサーの 1 つ) などの電力を大量に消費するハードウェアを使用する AI データセンターには不十分です。
液冷システムでは、熱は循環する冷媒によって吸収され、熱交換器へと流れます。その後、熱は施設内の水循環系や冷却塔へと排出されるか、蒸発冷却によって部分的に放散され、その後施設外へ排出されます。この場合、液冷によって熱負荷の大部分(例えば80%~85%)を除去することができますが、残留熱は従来の空冷によって処理されます。
現時点では、NVIDIAは、既存の空冷および液冷インフラと組み合わせて導入可能なBlackwellデータセンターGPUにおいて、液体を流すコールドプレートをプロセッサに組み込むダイレクト・ツー・チップ(D2C)冷却を推奨しています。NVIDIAとそのパートナーは、D2Cコールドプレートが、1.2~1.4kWの範囲のBlackwell GPUの熱設計電力に対して十分な冷却能力を提供すると考えています。さらに、コールドプレートはSXMモジュールのリファレンスデザインやサーバーシャーシに直接組み込むことができるため、OEMパートナー(Dell、HPE、Lenovo、Supermicroなど)間での標準化された導入が簡素化されます。
NVIDIAのBlackwell GPUはユニットあたり最大1.4kWを消費するため、GB300 NVL72ラックは少なくとも120kWを消費します。これは、従来の空冷式、さらには液冷式データセンターの設計目標をはるかに超えるものです。その結果、データセンター運営者は、新しいバスバー、配電ユニット(PDU)、大容量ケーブル、バックアップUPS、電気室などを含む電力供給インフラのアップグレードを余儀なくされました。さらに、冷却ループもアップグレードする必要がありました。しかし、重要なのは、Blackwellの消費電力のためにデータセンターを完全に再構築する必要がなかったことです。
そしてさらに熱くなるだろう
しかし、次世代 AI データ センター (Nvidia では AI ファクトリーと呼んでいます) では、今後数年間で AI アクセラレータの電力消費が劇的に増加すると予想されるため、さらなるアップグレードが必要になるか、ゼロから構築する必要があるでしょう。

NVIDIAの次世代データセンターGPU「Rubin」および「Rubin Ultra」は、消費電力がそれぞれ1,800Wから3,600Wに増加すると予想されており(KAISTおよび業界筋によると)、これによりデータセンター施設の電力消費量が再び増加することになります。しかし、NVIDIAとそのパートナー企業は、Kyberラックアーキテクチャに基づくNVL576システム(144個のコンピューティングチップレットを搭載)であっても、これらのプロセッサで直接水冷方式を採用し続けると予測されています。一方、Kyberラックの使用を計画しているエクサスケール企業は、こうしたシステムに対応するために、電力供給インフラとコンピュータホールを大幅にアップグレードする必要があります。
浸漬冷却が上昇
しかし、2028年に発売予定のFeynman GPUはパッケージあたり4,400Wの消費電力が見込まれており、KAISTやNVIDIAの計画に詳しい情報筋は、同社が実際に液浸冷却システムを検討していると考えている。このシステムでは、サーバーボードと機器を導電性のない冷却液の入った容器に直接設置する必要がある。

液浸冷却は特に新しいものではありません。Wikipediaによると、変圧器などの電気機器を冷却のために誘電流体に入れることは、1887年以前から既に行われていました。CrayとIBMは1960年代と1980年代に液浸冷却の実験を行いましたが、当時は液浸冷却を採用した大規模スーパーコンピュータは開発されていませんでした。
しかし、2010年代半ばに液浸冷却が再び注目を集めるようになりました。総所有コスト(TCO)の削減効果が暗号通貨マイナーにとって魅力的となり、技術の成熟が進んだのです。2017年には、多くのスタートアップ企業が暗号通貨や増大するデータセンターの冷却ニーズに対応するために液浸冷却システムを構築しました。
2018年、Open Compute Projectは「Advanced Cooling Solutions」トラックに液浸冷却技術を追加し、2019年にはサンノゼで開催されたOCPサミットで業界初の標準規格を発表しました。Intelは様々な企業と液浸冷却技術の開発に取り組んでおり、2022年から2023年には実用的な成果をいくつか発表しました。
液浸冷却は優れた効率性を備え、100kWをはるかに超える放熱量を持つ超高密度ラックにも対応可能ですが、専用のインフラストラクチャが必要であり、ベンダー認証も取得していません。そのため、NVIDIAはBlackwell GPUにおいて液浸冷却を推奨していません。その理由はいくつかあります。
- まず、誘電液内のコンポーネントの長期的な信頼性は不確実であり、コンポーネントの寿命に関する確立されたデータがなければ、企業は保証を提供することがほとんどできません。
- 第二に、現代のコンピューティングホールは液浸冷却器の導入にはまだ準備ができていません。液浸冷却には専用のタンク、ポンプ、そして流体管理システムが必要であり、これらは(少なくとも現時点では)既存のデータセンターの配管設備とは互換性がありません。
- 第三に、OCP には液浸冷却設定の標準があるようですが、この技術はまだ完全に標準化されていないため、パートナーにとって実装コストが高くなります。
また、すべての液浸冷却システムが同じように動作するわけではありません。
浸漬冷却のさまざまなタイプ
仮想通貨マイニングファームで一般的に使用され、Computexなどの展示会で実演されている浸漬冷却システムは、単相浸漬冷却方式の代表例です。サーバーは、コンポーネントから直接熱を吸収する非導電性誘電油(または特殊合成流体)に浸漬されます。ポンプが温められた液体を熱交換器に循環させ、そこで熱を放出して冷却され、再び循環します。このような浸漬冷却システムは比較的安価(12kW対応で冷却剤付きのターンキーシステムで2,108ドルで入手可能)で、仮想通貨や小規模HPCには有用ですが、Nvidiaが「AIファクトリー」と呼ぶような規模に拡張することは困難です。

二相浸漬冷却システムでは、サーバーは低沸点の誘電流体に浸漬されます。チップからの熱によって流体は沸騰して蒸気になり、上昇してタンク上部の冷却コイルまたはプレートで凝縮し、再び滴下することで、自己完結型の冷却サイクルが形成されます。このサイクルはより効率的に熱を除去し、100kWをはるかに超える非常に高いラック密度にも対応できます。
さらに、二相液浸冷却システムにはポンプなどの強制対流手段がないため、潜在的な故障箇所が1~2箇所少なくなります。しかし、システム自体は3M Novec(有害なパーフルオロアルキル化合物およびポリフルオロアルキル化合物を含んでいたため、現在は生産されていません。3Mはこれらの化合物の生産中止を表明しています)などの特殊で高価な冷却液に依存しており、蒸発を防ぐために密閉構造にする必要があり、従来のデータセンターに代わる、綿密に設計されたインフラストラクチャが必要です。
DataCenterDynamicsによると、現在、40Uラック相当のタンクの価格は2万ドルです。低沸点の特殊な誘電液はさらに1万5000ドルから2万ドルかかる場合があります(3M Novecの代替品は1缶あたり1876ドルかかる場合があります)。また、3Mは2024年に低沸点誘電液の生産を中止したため、二相液浸冷却の開発と標準化は非常に複雑になっています。
実際、液体は最大の懸念事項の一つです。標準化されておらず、長期的にハードウェアにどのような影響を与えるかが不明なため、異常な故障率を引き起こす可能性があります。さらに、蒸気の損失により液体の補充が頻繁に必要になり、メンテナンスコストが増加します。また、水没したハードウェアのメンテナンス自体には、沸騰を抑えるためにタンクの流量を絞ったり停止したりする必要があり、ダウンタイムが増加する可能性があります。
液浸冷却の進化には明確な基準や道筋が確立されていないため、各社がそれぞれ異なるアプローチを試みています。例えば、Vertivは、二相液浸冷却と、水冷ループやリアドア熱交換器による残留熱除去などの他の冷却戦略を組み合わせたハイブリッドシステムの構築を提案しています。
これまでの展開は少ない
大企業に関しては、液浸冷却を大規模に導入した企業はありません。AWS、Google、Meta、Oracleのいずれも、液浸冷却の大規模導入を確認していません。

マイクロソフトは、2021年にワシントン州クインシーのデータセンターでCPUとGPUを冷却するために低沸点誘電液体で満たされたタンクを使用し、2相浸漬冷却を実際の運用に導入した最初の大手クラウドプロバイダーです。マイクロソフトとWywinnが共同設計したこのセットアップでは、300WのCPUと700WのGPUを、約50°Cで沸騰する3Mの人工流体に浸します。
マイクロソフトのテストでは、この方式により従来の冷却方法と比較してサーバー1台あたりの消費電力を5%から15%削減できるだけでなく、オーバークロックによってTeams会議のピーク時などに発生するワークロードの急増を吸収できることが示されました。効率性の向上に加え、没入型冷却システムによりサーバーレイアウトの高密度化も可能になり、エアフローの制限を受けることなくコンピューティング能力を向上させることができます。
マイクロソフトはまた、液浸冷却は酸素と湿度への曝露を減らすことでハードウェアの故障率を低減する可能性があると言及しており、これはProject Natickの水中データセンター実験で得られた結果と同様です。実現可能性が証明されれば、液浸冷却は故障時にコンポーネントをすぐに交換しない環境でも活用できる可能性があります。しかし、同社は液浸冷却プロジェクトの最新情報を発表していないため、この実験結果が数年後の次世代AIデータセンターの冷却に活用できるかどうかは不明です。
トンネルの出口に光は見えますか?
トンネルの出口に光が見えてきた。IntelとShellは今年初め、データセンター向けに初の完全認証取得済みの単相液浸冷却ソリューションを発表した。この協業にはSupermicroとSubmerも参加しており、業界におけるIntelの存在感は高まっている。

このソリューションは、シェルのガス・トゥ・リキッド(GTL)化学とエステル配合から開発された単相誘電流体を採用しており、最高の熱性能を実現します。これらの流体は非導電性で、PFAS(パーフルオロアルキルスルホン酸)を含まず、ある程度の生分解性を備えているため、3Mが製造を中止したフルオロカーボンベースのオプションよりも安全で持続可能なものとなっています。
シェルは、空冷の代わりに同社の流体冷却システムを使用することで、消費電力を最大48%削減し、設備投資と運用コストを最大33%削減できると主張している。さらに、コンピューターホールの床面積も縮小できるという。インテルはCPUにおける具体的な効果を明らかにしていないが、単相液浸冷却システムによってサーバーの温度を大幅に下げられることは明らかだ。
このソリューションは、最大45℃の周囲温度で動作することが検証されており、第4世代および第5世代インテルXeonプロセッサーを搭載したプラットフォームでの使用が認定されています。また、インテルはこれらの使用をカバーする液浸保証特約を提供しています。これは、液浸冷却が空冷システムと同等の耐久性を提供することをインテルが保証できることを再確認するものです。しかし、この保証は前世代のインテルXeon CPUのみに適用され、これらのCPUは必ずしも最も高性能なマシンには使用されていません。
しかし、今回の発表で重要なのは、Intel、Shell、Supermicroという3つの大手ハイテク企業とSubmerが協力し、単相液浸冷却システムのソリューションに積極的に取り組んでいることです。ただし、この協業が二相液浸冷却ソリューションにも拡大されるかどうかは不明です。
要約: 業界は今すぐ行動すべき
従来のデータセンターは主に空冷に依存していますが、このアプローチは、NVIDIAのBlackwellシリーズGPUのような高出力CPUやGPUを使用するAIデータセンターにはますます不十分になっています。電力密度の上昇に対処するため、DC事業者は液冷を採用しており、これは今日のハードウェアだけでなく、1.8kW~3.6kWに達すると予想される次世代RubinやRubin Ultraなどのアクセラレータにも有効であると期待されています。しかし、業界筋やKAISTなどの研究機関は、NVIDIAとそのパートナー企業が、消費電力が約4.4kWと予測されるコードネームFeynman GPUに対して液浸液冷を必要とすると予想しています。
液浸冷却は今後数年以内に必須となる可能性が高いものの、本格的な実用化には程遠い。単相液浸冷却は比較的安価だが、数千基のGPUを収容するAIデータセンターへの導入は困難だ。一方、沸騰する誘電流体を使用する二相システムははるかに効率的だが、構築コストが高く、複雑である。
これまでのところ、OCP が 2019 年に液浸液冷却の仕様を概説したにもかかわらず、大手クラウド サービス プロバイダーのいずれも (Microsoft を除くが、その実験の規模は不明) 大規模な液浸液冷却の導入を試みていません。そのため、すべての大手 CSP が液浸冷却に関心を持っているわけではないようです。
Intel、Shell、Supermicro、Submerが最近、Intel Xeonプロセッサー向けに保証を無効にしない、完全認証済みの単相液浸ソリューションを発表したことで、この流れが再び加速する可能性があります。この提携は、標準化された認証済みの液浸ソリューションへの関心の高まりを示しています。しかし、ここで取り上げるのはわずか4社であり、2028年から2029年の発売に向けて液浸冷却エコシステムを準備するには十分ではありません。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。