82
144基のNvidia H200 AI GPUを搭載したExaclusterの詳細を設計者が解説:Hydra Hostが登場
ExaAIのH200クラスター
(画像クレジット:ウィル・ブリュック/X)

今月初め、ExaAILabsのExaclusterについてお伝えしました。これは、144基のNvidia H200 GPUを搭載した18台のマシンで構成されるクラスターで、これらのプロセッサを搭載した最初のクラスターの一つです。その後、クラスターの構築を支援したHydra Host社から、システムに関する詳細情報が新たに提供されました。このクラスターは、Hydra Host社による複数のカスタマイズが施されたLenovoシステムを使用しており、これが重要な役割を果たしました。このマシンは、所有者が使用していない場合は、HydraのBrokkrプラットフォームを通じてレンタルすることも可能です。

強力な計算能力

クラスターのバックボーンは、144基のNvidia H200 GPUと20TBのHBM3Eメモリを搭載した18台のLenovoノード(システムあたり8台)で構成され、AI向けに570 FP8 PetaTOPSの演算性能を実現します。16台のノードは、膨大な演算性能とメモリ性能を必要とするトレーニング用にHydraHostによって構成・調整され、残りの2台は推論ノードとして機能します。さらに、HydraHostはGPUのプロビジョニング、管理、リモートレンタルのためにBrokkrプラットフォームを導入しました(詳細は後述)。

Hydra HostはComputacenterと協力し、クラスタのニーズに合わせてカスタマイズされた高性能ネットワークアーキテクチャを設計しました。この構成では、East-Westトラフィックに3.2Tbps InfiniBand、North-South通信に400Gbps Ethernetを採用し、サーバーあたり200Gbpsのデュアル接続と400GbpsのDell Ethernetスイッチを備えています。Computacenterのネットワークエンジニアは、すべてのコンポーネントがNVIDIAのリファレンスアーキテクチャに準拠し、シームレスな互換性を確保できるようにしました。

「当社は、18 台の Lenovo ノードに H200 GPU (相互接続された 16 台と推論ノード 2 台) を供給し、Computacenter と共同でネットワーク アーキテクチャを設計し、Patmos を通じてコロケーションを容易にしました」と Hydra Host の広報担当者 Andrea Holt 氏は説明しています。

クラスター自体は、汎用コンピューティングという点でも非常に強力です。サーバーは192基の96コアプロセッサ(合計3,456コア)を搭載し、36TBのDDR5メモリと270TBのNVMeソリッドステートストレージを備えています。予備ベイも用意されているため、ストレージ容量を容易に拡張できます。このスーパーコンピューターは、HydraHostがカスタム構築したネットワークを使用しています。

同社はまた、コロケーションの処理に Patmos を導入し、電力を大量に消費して高温になるマシンに十分な電力 (約 100kW) と冷却を提供しました。

最高のパフォーマンスを最高の価格で

Exaclusterの価格は500万ドルで、1台あたり平均27万7777ドルです。これは、フルサーバーではなく、8ウェイH200ベースボード1台分に相当します。ここからが興味深いところです。誰がこの価格を実現したのでしょうか?

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Hydra HostはNVIDIAの緊密なパートナーであり、NVIDIA GPUのみをサービスとして提供しています。さらに、同社のBrokkrソフトウェアは主にCUDA向けに最適化されています。一方、ExaAIはNVIDIAの支援を受けている企業であるため、優遇価格が適用される可能性もあります。

「お客様のニーズに最適なGPUを最適な価格で提供できる点において、当社は市場で最も優れています」と、Hydraの主任セールスエンジニアであるライアン・ホージャスは述べています。「このクラスタは、アーキテクチャ設計とInceptionプログラムにおいてNVIDIAのサポートを受けています。Hydraは、他の企業と同様に、Exa社向けにもこのクラスタを担当しました。」

Hydra はスタートアップ向けのカスタム ソリューションの構築にも特化しており、使用されていないマシンを収益化することさえ行っています。

「Hydraは、スタートアップ企業が大量購入を通じて自社のクラスターをより良い価格で利用できるよう支援してきました」とHorjus氏は付け加えた。「Hydraのネットワークを通じて、スタートアップ企業は理想的な価格設定を実現できます。また、Brokkr管理プラットフォームを通じて、使用されていないサーバーを収益化することも可能です。」

Brokkrについて言えば、これはGPU管理・プロビジョニングソフトウェアであり、GPUの収益化プラットフォームです。データセンターやスタートアップ企業に、ハードウェアを顧客に届け、代金を受け取るためのターンキーソフトウェアソリューションを提供すると、Hydraの最高技術責任者兼共同創設者であるアリエル・デシャペル氏は説明します。

「その主要機能の一つは、ベアメタルのプロビジョニングとライフサイクル管理の自動化です」とデシャペル氏は説明する。「つまり、プラットフォームがベースサーバーのOSとファームウェアの設定と管理、ドライバーやその他のサポートソフトウェアのセットアップ、GPUやその他のコンポーネントのテスト実行といった作業をすべて実行します。これにより、デリバリープロセスが大幅に高速化・標準化され、サーバーとGPUのアイドル時間が削減されます。また、容量のニーズが変化した場合、未使用のサーバーを、ベアメタルGPUを探しているBrokkrプラットフォーム上の他のユーザーに再販することも容易になります。」

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。