2
LLama 3 トレーニング中の失敗の半数は、Nvidia H100 GPU と HBM3 メモリの障害が原因でした。つまり、3 回に 1 回は失敗していることになります。
エヌビディア
(画像提供:Nvidia)

Metaは最近、16,384基のNvidia H100 80GB GPUを搭載したクラスタ上でLlama 3 405Bモデルのトレーニングを実行した詳細な調査結果を発表しました。トレーニング実行は54日間にわたって行われ、その間にクラスタは419件の予期せぬコンポーネント障害に遭遇しました。これは平均して3時間に1件の障害発生率に相当します。障害の半数では、GPUまたはオンボードHBM3メモリが原因となっていました。  

スーパーコンピュータに関する古い格言にあるように、大規模システムで唯一確実なのは故障です。スーパーコンピュータは、数万個のプロセッサ、数十万個のチップ、そして数百マイルに及ぶケーブルを使用する極めて複雑な装置です。高度なスーパーコンピュータでは、数時間ごとに何らかの故障が発生するのは当然のことです。開発者にとっての最大の課題は、こうした局所的な故障に関わらず、システムが継続的に動作し続けるようにすることです。

54日間の事前トレーニングスナップショット中に、ジョブの中断は466件発生しました。そのうち、計画的な中断は47件、予期せぬ中断は419件でした。計画的な中断は自動メンテナンスによるもので、予期せぬ中断は主にハードウェアの問題に起因していました。GPUの問題が最も多く、予期せぬ中断の58.7%を占めました。大幅な手動介入を必要としたインシデントはわずか3件で、残りは自動化によって管理されました。 

空軍

(画像提供:Meta)

419件の予期せぬ中断のうち、148件(30.1%)は様々なGPU障害(NVLink障害を含む)が原因でした。一方、72件(17.2%)はHBM3メモリ障害が原因でした。これは、NvidiaのH100 GPUが約700Wを消費し、大きな熱ストレスにさらされていることを考えると、それほど驚くべきことではありません。興味深いことに、54日間でCPU障害が発生したのはわずか2件でした。 

しかし、GPU は最も重要なコンポーネントでありながら壊れやすいため、予期しない中断の 41.3% は、ソフトウェアのバグ、ネットワーク ケーブル、ネットワーク アダプターなど、さまざまな要因によって引き起こされました。 

効率性を高めるため、Metaのチームはジョブの起動とチェックポイント作成時間を短縮し、独自の診断ツールを開発しました。PyTorchのNCCLフライトレコーダーは、特にNCCLXに関連するハングアップやパフォーマンスの問題を迅速に診断・解決するために広く活用されました。このツールは、集合的なメタデータとスタックトレースをキャプチャすることで、迅速な問題解決を支援します。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

NCCLXは、特にNVLinkおよびRoCE関連の問題において、障害の検出と特定において重要な役割を果たしました。PyTorchとの統合により、NVLinkの障害による通信の停滞を監視し、自動的にタイムアウトさせることが可能になりました。 

数千台の他のGPUの速度を低下させる可能性のある、遅延GPUを専門ツールを用いて特定しました。これらのツールは問題のある通信を優先することで、遅延GPUを効果的に検出し、タイムリーに解決することを可能にしました。これにより、速度低下を最小限に抑え、全体的なトレーニング効率を維持できました。 

日中の気温変動などの環境要因は、スループットに1~2%の変動をもたらし、トレーニングのパフォーマンスに影響を与えました。GPUの動的電圧および周波数スケーリングはこれらの温度変化の影響を受けましたが、大きな問題ではありませんでした。 

Llama 3 405B LLMトレーニングチームが直面しているもう一つの課題は、数万台のGPUの消費電力が同時に変化することです。これはデータセンターの電力網に負担をかけます。この変動は、時には数十メガワットにも達し、電力網の限界を超えてしまうため、Metaはデータセンターに十分な電力を確保する必要があります。 

16,384 個の GPU クラスターが 54 日間で 419 回の障害 (24 時間あたり 7.76 回、つまり 3 時間ごとに 1 回の障害) を経験したという事実を考慮すると、障害が発生する可能性のあるコンポーネントの数が 6 倍に増える 100,000 個の H100 GPU を含む xAI のクラスターで、どのくらいの頻度で障害が発生するのか疑問に思うばかりです。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。