29
イーロン・マスクの10万GPU AIクラスターを初めて詳細に検証 — xAI Colossusがその秘密を明かす
xAIのColossus AIスーパークラスターの画像。2列のサーバーラックが遠くまで続いている。
(画像提供:ServeTheHome)

イーロン・マスク氏の新たな巨額プロジェクト、AIスーパーコンピューター「xAI Colossus」の詳細が初めて公開されました。YouTuberのServeTheHome氏は、10万GPUを搭載したこの巨大スーパーコンピューターに搭載されたSupermicro製サーバーへのアクセスを許可され、その様々な側面を披露しました。マスク氏のxAI Colossusスーパークラスターは、122日間の組み立てを経て、約2ヶ月間オンライン状態となっています。

10万GPUクラスターの内部

ServeTheHomeのPatrick氏は、サーバーの複数の部分をカメラで撮影し、その動作を俯瞰的に捉えています。消費電力やポンプサイズといったスーパーコンピューターの詳細な情報は、秘密保持契約により公開できず、xAIは公開前に動画の一部をぼかしや検閲で修正しました。しかし、SupermicroのGPUサーバーなど、最も重要な部分は上記の映像ではほぼそのまま残されています。

GPUサーバーはNvidia HGX H100で、それぞれ8基のH100 GPUを搭載したサーバーソリューションです。HGX H100プラットフォームは、Supermicroの4UユニバーサルGPU液冷システムにパッケージ化されており、各GPUにホットスワップ可能な液冷機能を提供します。これらのサーバーは、それぞれ8基のサーバーを収容するラックに搭載されており、ラックあたり64基のGPUを搭載しています。各HGX H100の間には1Uマニホールドが挟まれており、サーバーに必要な液冷機能を提供します。各ラックの下部には、冗長化されたポンプシステムとラック監視システムを備えたSupermicroの4Uユニットがもう1基搭載されています。

画像

1

2

xAI の HGX H100 サーバー ラックの 4 つのバンクには、それぞれ 8 台のサーバーが格納されています。
(画像提供:ServeTheHome)

これらのラックは8台ずつペアになっており、アレイあたり512基のGPUを搭載しています。各サーバーには4つの冗長電源が搭載されており、GPUラックの背面には3相電源、イーサネットスイッチ、そしてラックサイズのマニホールドが配置され、液体冷却の全てを担っています。Colossusクラスタには1,500台以上のGPUラックが搭載されており、これはラックアレイで約200基に相当します。NVIDIAのCEO、ジェンスン・フアン氏によると、これら200アレイのGPUはわずか3週間で完全に設置されたとのことです。

AIスーパークラスターはモデルを継続的に学習するため、高帯域幅が求められるため、xAIはネットワーク相互接続性において過剰なまでに徹底した設計を行いました。各グラフィックカードには400GbEの専用NIC(ネットワークインターフェースコントローラー)が搭載され、サーバーごとに400Gb NICが追加されています。つまり、HGX H100サーバー1台あたり3.6テラビット/秒のイーサネットが利用可能ということになります。そしてもちろん、クラスター全体は、スーパーコンピューティング分野で標準的なInfiniBandなどの特殊な接続ではなく、イーサネット上で動作します。

画像

1

2

xAI Colossus クラスター自体とクラスターをつなぐ、波のように張り巡らされた黄色いイーサネットケーブルを見上げるショット。天井には、極端に太いケーブルが何層にも重なり、埋め込まれている。
(画像提供:ServeTheHome)

もちろん、Grok 3チャットボットのようなAIモデルの学習に基づくスーパーコンピュータが機能するには、GPUだけでは不十分です。ColossusのストレージとCPU搭載コンピュータサーバーの詳細はより限定的です。Patrickのビデオとブログ記事からわかるように、これらのサーバーもほとんどがSupermicroのシャーシに収められています。NVMe対応の1Uサーバーには、何らかのx86プラットフォームCPUが内蔵されており、ストレージとCPUコンピューティングのいずれかを搭載し、背面から水冷するシステムも採用されています。

屋外には、テスラ・メガパックのバッテリーがぎっしりと束ねられているのが見える。このアレイは起動と停止を繰り返す性質があり、バンク間の遅延も数ミリ秒と非常に大きいため、電力網やマスク氏のディーゼル発電機では対応しきれない。そこで、電力網とスーパーコンピューター間のエネルギーバッファーとして、一定数のテスラ・メガパック(1台あたり最大3.9MWh)が使用されている。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Colossusの活用とマスク氏のスーパーコンピュータの安定運用

Nvidiaによると、xAI Colossusスーパーコンピュータは現在、世界最大のAIスーパーコンピュータです。世界有数のスーパーコンピュータの多くは、気象パターン、病気、その他の高度な計算タスクを研究するために、多くの請負業者や研究者が利用できる研究用マシンですが、ColossusはX(旧Twitter)の様々なAIモデルのトレーニングを単独で担っています。主に、Xプレミアム加入者のみが利用できるイーロン・マスクの「反覚醒」チャットボットであるGrok 3です。ServeTheHomeは、Colossusが「未来の」AIモデル、つまり今日の主力AIの能力を超える用途と能力を持つモデルをトレーニングしていると説明されました。

Colossusの建設第1フェーズは完了し、クラスターは完全にオンラインになっていますが、まだ全てが終わったわけではありません。メンフィス・スーパーコンピューターは間もなくアップグレードされ、GPU容量が倍増します。H100 GPUを5万基、次世代H200 GPUを5万基追加搭載します。これにより消費電力も2倍以上に増加しますが、7月にマスク氏が敷地内に追加した14基のディーゼル発電機では既に処理しきれないほどです。また、マスク氏が約束したColossus内にH200を30万基搭載するという目標には達していませんが、これがアップグレードの第3フェーズとなる可能性があります。

テスラの工場「ギガ・テキサス」にある5万基のGPUを搭載したCortexスーパーコンピュータも、マスク氏の子会社です。Cortexは、カメラ映像と画像検出のみでテスラの自動運転AI技術のトレーニングに使用されているほか、テスラの自律ロボットやその他のAIプロジェクトにも使用されています。テスラはまもなく、ニューヨーク州バッファローに5億ドル規模のDojoスーパーコンピュータの建設を予定しています。百度のCEO、ロビン・レー氏のような業界の投機筋は、バブル崩壊時にAI企業の99%が崩壊すると予測しており、マスク氏の記録的なAI投資が裏目に出るか、それとも成功するかはまだ分かりません。

サニー・グリムはTom's Hardwareの寄稿ライターです。2017年からコンピューターの組み立てと分解に携わり、Tom'sの常駐若手ライターとして活躍しています。APUからRGBまで、サニーは最新のテクノロジーニュースを網羅しています。