37
テスラは、100万コアのDojoスーパーコンピューターで欠陥のあるコアを罰する方法を詳しく説明しています。たった1つのエラーが…
TSMC
(画像提供:TSMC)

大規模プロセッサ上で故障したコアを検出し、無効化するのは困難ですが、TeslaはStressツールを開発しました。このツールは、Dojoプロセッサだけでなく、数百万コアのDojoクラスタ全体にわたって、サイレントデータ破損が発生しやすいコアをオフラインにすることなく検出できます。これは非常に重要な機能です。Teslaによると、たった1つのサイレントデータエラーが、完了までに数週間かかるトレーニング実行全体を台無しにする可能性があるからです。

テスラのDojoは、現在地球上に存在する2つの最大級のプロセッサのうちの1つです。これらの巨大なウエハスケールチップは300mmウエハを丸ごと使用しているため、一度にこれ以上の演算能力を生み出すことは不可能です。各Dojoウエハスケールプロセッサは最大8,850個のコアを搭載していますが、一部のコアはデプロイ後にサイレントデータ破損(SDC)を引き起こし、大規模なトレーニング実行の結果に悪影響を及ぼす可能性があります。 

大きなプロセッサ

Dojo トレーニング タイル (大型のウェーハ サイズのチップ) は非常に複雑なため、製造プロセス中でも欠陥のあるダイを検出するのは簡単ではありませんが、サイレント データ破損 (SDC) に関しては、状況はさらに複雑になります。 

SDCはあらゆる種類のハードウェアで避けられないことを念頭に置いてください。Dojoプロセッサは18,000アンペアを消費し、15,000Wの電力を消費するため、これは影響を及ぼします。しかし、すべてのコアが意図したとおりに動作する必要があります。そうでなければ、TeslaのAIトレーニングはより複雑になります。データ破損による単一のエラーが、数週間にわたるAIトレーニングを無駄にしてしまう可能性があるからです。

Nvidia A100からTesla Dojoまで

(画像提供:テスラ)

Tesla では、各ウェーハ スケールの Dojo プロセッサを「トレーニング タイル」と呼んでいます。各 Trailing タイルには、データと命令用の 1.25 MB の SRAM を備えた 354 個のカスタム 64 ビット RISC-V コア (Tesla ではノードと呼びますが、ここでは理解しやすいようにコアと呼びます) を搭載した 25 個の 645 mm^2 D1「チップ」が搭載されており、5×5 クラスターに編成され、10 TB/s の方向性帯域幅を持つメカ ネットワークを使用して相互接続されています。

各D1は4TB/sのオフチップ帯域幅もサポートします。したがって、各「トレーニングタイル」には8,850個のコアが搭載され、8ビット、16ビット、32ビット、または64ビットの整数と複数のデータ形式をサポートします。Teslaは、TSMCのInFO_SoWテクノロジーを使用して、ウエハスケールDojoプロセッサをパッケージ化しています。 

適切なメンテナンスが必要

コア障害のリスクに対処するため、Teslaはまず差分ファジング手法を導入しました。この初期バージョンでは、ランダムな命令セットを生成し、同じシーケンスをすべてのコアに送信しました。実行後、出力を比較して不一致を検出しました。しかし、ホストとDojoトレーニングタイル間の通信オーバーヘッドが大きいため、このプロセスには時間がかかりすぎました。 

Nvidia A100からTesla Dojoまで

(画像提供:テスラ)

効率性を高めるため、テスラは各コアに0.5MBのランダム命令からなる固有のペイロードを割り当てることで手法を改良しました。ホストと通信する代わりに、コアはDojoトレーニングタイル内で互いにペイロードを取得し、順番に実行しました。この内部データ交換はDojoトレーニングタイルの高帯域幅通信を活用し、テスラは約4.4GBの命令を大幅に短い時間でテストできるようになりました。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

その後、テスラは、コアが各ペイロードを複数回実行する際に状態をリセットすることなく実行できるようにすることで、この手法をさらに強化しました。この技術により、実行環境にさらなるランダム性が導入され、そうでなければ検出されない可能性のある微細なエラーを検知できるようになりました。同社によると、実行回数が増加したにもかかわらず、検出の信頼性の向上に比べると速度低下は最小限に抑えられました。 

もう 1 つの改善点は、XOR 演算を使用してレジスタ値を指定された SRAM 領域に定期的に統合することで実現され、パフォーマンスの大幅な低下なしに、欠陥のある計算ユニットを識別する確率が 10 倍に増加しました (既知の欠陥のあるコアでテストした場合)。

プロセッサレベルだけでなく

Tesla の方法は、Dojo トレーニング タイル レベルや Dojo キャビネット レベル (12 個の Dojo トレーニング タイルをパック) だけでなく、Dojo クラスター レベルでも機能し、数百万のアクティブ コアの中から障害のあるコアを特定できるようになります。 

Tesla Dojo スーパーコンピューターのレンダリング

(画像提供:テスラ)

レポートによると、適切に調整されたStress監視システムは、Dojoクラスタ全体で多数の欠陥コアを発見しました。ただし、検出時間の分布は大きく異なっていました。ほとんどの欠陥は、コアあたり1GBから100GBのペイロード命令を実行した後に発見され、これは数秒から数分の実行時間に相当します。検出が難しい欠陥は、1000GB以上の命令を必要とする場合があり、これは数時間の実行に相当します。 

注目すべきは、TeslaのStressツールによるテスト実行は軽量でコア内で完結するため、コアをオフラインにすることなくバックグラウンドテストを実行できるということです。当然ながら、その後無効化されるのは故障と特定されたコアのみであり、それでも各D1ダイは、全体の機能に影響を与えることなく、いくつかのコアが無効化されても許容できます。

設計上の欠陥を特定する

テスラは、故障したコアの検出に加えて、Stressツールが稀な設計レベルの欠陥も発見し、エンジニアがソフトウェアの調整によって対処できたことも発表しました。監視システムのより広範な展開中に、低レベルのソフトウェアレイヤーにおける複数の問題も発見され、修正されました。

現在、Stressツールは運用中のDojoクラスタに完全に統合されており、アクティブなAIトレーニング中のハードウェアの健全性監視を現場で実行できます。同社によると、この監視で観測された欠陥率はGoogleやMetaが公表しているものとほぼ同等であり、監視ツールとハードウェアが他社が使用しているものと同等であることを示しています。

ポストシリコン段階とプレシリコン段階

テスラは現在、Stressを用いて得られたデータを活用し、経年劣化によるハードウェアの長期劣化を研究する計画を立てています。さらに同社は、この手法をプレシリコンテスト段階や初期検証ワークフローにまで拡張し、前述の欠陥を生産前段階で検出したいと考えています。ただし、SDCは経年劣化によって発生する可能性があるため、これをどのように実現するかを正確に予測することは困難です。

考え

ウェーハスケールプロセッサの開発と製造は非常に複雑な作業であり、業界でこれを達成したのはセレブラスとテスラの2社のみです。他のプロセッサと同様に、これらのデバイスは欠陥や劣化が発生しやすい傾向がありますが、テスラは、故障したプロセッシングコアをオフラインにすることなく特定する独自の方法を開発しており、これは大きな進歩を示しています。 

CerebrasやTesla向けにこれらの巨大プロセッサを製造しているTSMCは、今後数年間でより多くの企業が同社のSoIC-SoW技術を用いたウエハスケール設計を採用するだろうと述べています。業界はこれに向けて準備を進め、経験を積みつつあるようです。少しずつですが。 

Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。