12
Nvidia RTX 5090のリセットバグ修正に1,000ドルの報奨金 — 仮想化リセットバグ発生後、カードが完全に応答しなくなり再起動が必要になり、RTX PRO 6000にも影響
GeForce RTX 5090 32GB プロフェッショナル
(画像提供:AFOX)

Nvidia の新しいRTX 5090および RTX PRO 6000 GPU には、再現可能な仮想化リセット バグがあり、ホスト システムを物理的に再起動するまでカードが完全に応答しなくなる可能性があると報告されています。

GPUクラウドプロバイダーのCloudRiftは、 Blackwellを搭載した複数の本番システムでこの問題に遭遇した後、詳細な分析を公開しました。同社は、修正プログラムや根本原因を特定できる人に対して、1,000ドルの公開バグ報奨金も提供しています。

リセットバグによりブラックウェルがフリーズ

CloudRiftのログによると、このバグはKVMとVFIOを使用してGPUがVMにパススルーされた後に発生します。ゲストのシャットダウン時またはGPUの再割り当て時に、ホストはPCIe機能レベルリセット(FLR)を発行します。これはパススルーデバイスのクリーンアップにおける標準的な処理です。しかし、GPUは正常な状態に戻る代わりに応答に失敗し、カーネルは「FLR後65535msで準備完了ではありません。諦めます」と報告します。

この時点で、カードはlspciでも読み取り不能になり、「不明なヘッダータイプ7f」というエラーが発生します。CloudRiftは、正常な動作に戻す唯一の方法は、マシン全体の電源を入れ直すことだと指摘しています。tinygradを開発するAIスタートアップ企業Tiny Corpは、 X.comにCloudRiftの調査結果を再投稿し、率直な質問を投げかけることで、この問題への注目を集めました。「5090とRTX PRO 6000にはハードウェアの欠陥があるのでしょうか?調査しましたが、解決策は見つかりませんでした。」

5090とRTX PRO 6000にはハードウェア上の欠陥があるのでしょうか?調査しましたが、解決策は見つかりません。つまり、カードがリセットを聞かない状態になる可能性があるということです。https://t.co/7HgpBfn8Nd 2025年9月6日

他のユーザーも同様の失敗を確認している

Proxmox フォーラムと Level1Techs コミュニティ全体のスレッドによると、RTX 5090 のホームユーザーやその他の早期導入者も同様の現象に遭遇しているようです。

あるケースでは、 Windowsゲストをシャットダウンした後にホストが完全にハングアップし、OSレベルの再起動後もGPUが再初期化に失敗したという報告がユーザーからありました。別のケースでは、ホストが応答しなくなったことに気づきました。さらにデバッグを進めたところ、LinuxVMのシャットダウン後にFLOタイムアウトが発生し、ホストCPUがソフトロック状態になっていることがわかりました以前の4080では問題ありませんでした。」というユーザーからの報告がありました。

複数のユーザーが、PCIe ASPMまたはACS設定を切り替えても障害が軽減されないことを確認しています。RTX 4090などの古いカードでは問題は報告されていないため、このバグはNvidiaのBlackwellファミリーに限定されている可能性があります。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

FLRはGPUパススルー構成において重要な機能であり、デバイスを安全にリセットし、ゲスト間で再割り当てすることを可能にします。FLRの信頼性が低い場合、マルチテナントAIワークロードや仮想化を使用したホームラボのセットアップは、特に1枚のカード障害でホスト全体がダウンした場合、リスクが高まります。

Nvidia はまだこの問題を公式に認めておらず、執筆時点では軽減策は知られていない。

Tom's HardwareをGoogleニュースでフォローするか、お気に入りの情報源として追加して、最新のニュース、分析、レビューをフィードで受信しましょう。「フォロー」ボタンを忘れずにクリックしてください!

ルーク・ジェームズはフリーランスのライター兼ジャーナリストです。法務の経歴を持つものの、ハードウェアやマイクロエレクトロニクスなど、テクノロジー全般、そして規制に関するあらゆることに個人的な関心を持っています。