71
元 Twitter 開発者、買収後に未使用の Nvidia GPU 700 個を発見したことを回想 — 忘れ去られたクラスターは…
Nvidia V100 PCIe GPU
(画像提供:Nvidiaのプレゼンテーション)

アグラワル氏からマスク氏への劇的な移行期にTwitterで働いていたエンジニアが、700基のNVIDIA V100 GPUクラスターを発見した時の思い出を公に語った。現在Google DeepMindでソフトウェアエンジニアとして働くティム・ザマン氏は、Xの元気な先祖のデータセンターで、この膨大なGPUパワーが稼働しているにもかかわらずアイドル状態になっているのを発見した。

2022年のTwitter買収から数週間後、データセンターで700基のV100 GPU(PCIe、笑)を発見しました。電源は入っていたもののアイドル状態だったようで、長い間放置されていました。Twitter 1.0内でクラスターを作ろうとした真摯な試みの、忘れ去られた残骸です。時代は変わったものです。10万基のGPUが… https://t.co/zSChG0BvVZ 2024年7月22日

Twitterデータセンターで熱く唸りをあげるNVIDIAのシリコンとPCBの塊は、月曜日のTwitter/X投稿でZaman氏によって「Twitter 1.0の中にクラスターを作ろうとした誠実な試みの忘れられた残骸」と詩的に表現された。エンジニアのZaman氏は、xAIのMemphis SuperclusterがGrok 3のトレーニングに着手し、単一のRDMAファブリック上に10万基の液冷式NVIDIA H100アクセラレータを搭載したという記事を読んだことがきっかけで、このシリコンの宝庫を発見したという驚きの体験について記事を書こうとした。

Zaman氏は、皆さんがおそらく考えているであろうことを強調しました。Twitter社は、世界で最もパワフルなGPU 700台を何年もの間、何の目的もなく稼働させていたのです。「時代は変わったものだ!」と彼は叫びました。実際、データセンター向けの最初のNVIDIA VoltaアーキテクチャV100 GPUが市場に登場し始めたのは、2017年の最初のGPU不足の時期でした。Zaman氏は、2022年半ばに700基のV100カードを搭載したクラスターが何の目的もなく稼働しているのを発見しました。これは、膨大な計算時間とリソースの無駄遣いです。

Zaman氏にとってもう一つの喜びは、700基のNvidia V100が、はるかに高帯域幅のNVLinkインターフェースを備えたSXM2フォームファクタではなく、PCIe GPUだったことに気づいた時だった。もちろん、2017年当時のTwitterがなぜこれほど大規模な設備にSXM2バスのV100 GPUではなくPCIeを選んだのかは不明であり、おそらく永遠に分からないだろう。

ザマン氏のツイートには、マスク氏の新しい「ギガファクトリー・オブ・コンピューティング」に関する興味深い考察も含まれていた。「10万基のGPUを同じファブリック上で稼働させるのは、途方もない挑戦に違いない」とエンジニアはコメントした。「その規模では、唯一保証されているのは故障であり、重要なのは適切な故障管理だ」。これを念頭に、ザマン氏は、故障によってシステム全体がダウンしないよう、リソースを個別のドメインに分散させる方法について検討した。 

エンジニアは、単一のファブリック上に存在できるGPUの最大数にも興味をそそられました。テクノロジー業界の巨人たちがますます大規模なAIトレーニングクラスターの構築を競う中、同一ファイバー上のGPUの最大数には、予測可能な限界と予期せぬ限界の両方が明らかになるのは必然です。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

マーク・タイソンはトムズ・ハードウェアのニュース編集者です。ビジネスや半導体設計から、理性の限界に迫る製品まで、PCテクノロジーのあらゆる分野を網羅的にカバーすることに情熱を注いでいます。