38
NvidiaのSpectrum-X Ethernetが世界最大のAIスーパーコンピュータ(Hopper GPU 20万基)を実現
エヌビディア
(画像提供:Nvidia)

ハイエンドAIデータセンターの構築における課題の一つは、サーバーを接続し、数万基のGPUを連携させ、問題なく動作させることです。そのため、ネットワークの相互接続はGPUと同様に重要です。xAIのColossusスーパーコンピューターは、現在10万基のNvidia Hopperプロセッサーを搭載し、今後数か月でH100およびH200 GPUを20万基に拡張する予定ですが、同社はNvidiaのSpectrum-X Ethernetを採用しました。

NVIDIAのSpectrum-Xプラットフォームには、最大800Gbpsのポート速度を実現するSpectrum SN5600イーサネットスイッチが含まれており、Spectrum-4スイッチASICを基盤としています。このネットワークプラットフォームは、NVIDIAのBlueField-3 SuperNICと連携し、AIトレーニングに必要な膨大なデータフローの転送において、卓越した速度と効率性を実現します。Spectrum-Xにより、Colossusは一貫して高いデータスループット(95%)を実現し、ネットワーク遅延の問題やパケットロスを事実上排除することで、かつてない規模でのシームレスな運用を実現します。

環境配慮型企業であるSpectrum-Xは、従来のイーサネットではこのような規模の処理は困難で、深刻な輻輳やデータスループットの低下が発生することが多いと述べています。これに対し、Spectrum-Xのアダプティブルーティング、輻輳制御、パフォーマンス分離技術はこれらの問題に対処し、安定した高性能環境を実現します。

xAIのColossusは、10万基のHopper GPUを搭載しながらも、AIトレーニング用としては世界最高クラスの性能を誇ります。わずか122日で構築されたColossusは、その迅速な導入実績は、数ヶ月、あるいは数年かかることも珍しくない大規模システムの典型的な導入期間とは大きく異なります。この効率性は運用環境にも反映され、最初のハードウェアが納入・設置されてからわずか19日でトレーニングが開始されました。

「Colossus は世界で最も強力なトレーニング システムです」と Elon Musk 氏は X について語りました。「xAI チーム、NVIDIA、そして多くのパートナー/サプライヤーによる素晴らしい仕事です。」

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。