
先日、壊れたRTX 5090がNorthwest Repairsの机に届きました。ここは「Tony」という人物が経営する会社で、彼は彼らのカオスなYouTubeチャンネルの顔でもあります。Northwest Repairsは半導体修理、特にGPUの復活を専門としています。そこで、PCBにひびが入り、全く動かないPNY RTX 5090が持ち込まれた時、Tonyは作業に取り掛かり、この5090の修理というクレイジーなジェットコースターのような道のりを私たちに見せてくれました。
RTX 5090は、これまでも議論の的となってきました。電源コネクタの溶解は、前身のRTX 4090から引き継がれた問題として、これまでも何度か発生しています。しかし、今回の問題は、電力への依存度が高すぎて過熱したGPUではなく、PCBのひび割れが原因でした。PCBのひび割れは、最近の大型GPUでますます多く見られる故障箇所です。PCBのひび割れは、基板の奥深くに埋め込まれた信号経路を遮断する可能性があり、一見ランダムな故障につながる可能性があります。こうした故障の原因は診断が難しく、修理はさらに困難です。
RTX 5090のコアを取り外して中身を確認してみた - YouTube
トニーはまずカードを分解し、シュラウドから分解しました。すると、クーラーの基盤となる設計が明らかになりましたが、これは…問題ありませんでした。メモリの接触プレートがベイパーチャンバーにきちんと接触しておらず、メモリへの熱伝導が事実上ゼロだったのです。5090の上位モデルは、より堅牢な冷却システムを搭載しているため、こうした欠陥は見られないかもしれません。一方、VRMと表面部品は堅牢だったので、次のステップは電力テストへと移りました。
アイドル時でさえ、GPUは約5アンペアを消費していました。これは5090のような電力を大量に消費するマシンでは高い数値ですが、正常な動作です。TonyはGPUを起動させるためだけに電源テスターの電流値を4Aから8Aに上げなければならず、初期の電力スパイクに対処するには8アンペアが必要でした。カードは起動し、ライトが点灯し、ファンも回転しましたが、モニターのLEDは点灯しているにもかかわらず、画面出力はありませんでした。これはGPUは起動しているものの、単に書き込みが行われていないだけであり、修理担当者はVRAMの問題だと考えました。
そこで、プロセッサのiGPUを出力に使用してメモリ診断を続行したところ、トレーニングエラーによって特定のメモリチップに問題があることが分かりました。GPUはDRAM初期化シーケンスを完了できませんでした。これは、そのチップのはんだ接合部がおそらく劣化していることを示しています。Tonyは、そのチップをボードから取り外し、リボール処理を行い、美しいモンタージュシーケンスでPCBに再取り付けしました。その後、カードが正常にポストする様子が確認できます。これは2GBのSamsung GDDR7チップで、つまりこのカードはNvidiaがSK Hynix製モジュールを採用する前の5090シリーズの旧ロットのものでした。
リボールとは一体何でしょうか?
リボールとは、BGA(ボール・グリッド・アレイ)チップを回路基板から取り外し、チップと基板の両方から古いはんだを除去し、ステンシルを用いて新しいはんだボールを塗布し、制御された熱でチップを再接続するプロセスです。この作業には、熟練した技術、適切な位置合わせ、そしてリワークステーションや顕微鏡などの専用機器が必要です。リボール作業中のわずかなミスでも、チップや基板に永久的な損傷を与える可能性があるため、決して自宅で行わないでください。
残念ながら、作業はそこで終わりませんでした。動作中にファンがすぐにフルスピードに達し、そのままの状態になったのです。GPUのファンが変化なく100%で回転し続けるということは深刻な問題を意味します。GPU自体が何らかの異常を認識している可能性が高いのです。同時に、PCIeインターフェースも突然故障しました。以前の熱サイクルによって、PCBに既に存在していた内部損傷が悪化した可能性があり、PEX(PCIeプロトコルがマザーボードに最初に接続し、GPUが正常に動作可能であることを示す信号)は、より深刻な損傷が発生する前の最後の瞬間を過ごしたに過ぎませんでした。
それを排除するために、GPUコアは完全にリボールされました。これは信じられないほど細心の注意を要する作業で、最高レベルの精度と技術が求められます。それだけでなく、これはRTX 5090なので、ドナーボードが飛ぶように売れるわけではありません。ミスは許されません。プロセスが完了した後、トニーはすべてをチェックし、リボールによって意図せず新たな問題が発生していることをすぐに発見しました。メモリが熱膨張によって完全にショートしていたのです。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
当初、トニーの携帯電話に接続されたサーマルカメラは何も捉えられなかったため、彼は「批判的思考」を駆使し、カード全体の温度上昇をチェックし始めた。最終的に、故障したチップを特定した。それは以前交換したチップと同じものだった。チップを再度交換した後、ショートは修復されたが、PEXがないため、カードは依然としてシステムに認識されなかった。
この時点で、元のPCBの亀裂は熱サイクルによって悪化し、内部接続が完全に切断されていた可能性が高い。さらに詳しく調査したところ、VRMの電源フェーズのうち実際にアクティブになっているのはごくわずかであることが判明した。通常の電圧レール(12VとVcore)は存在していたものの、デジタルの「Driver ON」信号がVRMコントローラーの半分に届いていなかった。Tonyの推測は正しく、PCB内部に埋め込まれた配線が切断されていたのだ。
さて、配線作業です。おそらく修理の中で最も印象的な部分でしょう。信号が相間で共有されていなかったため、シンプルなジャンパー線を使って断線箇所を再接続しました。これで電力供給は完全に回復しましたが、PEXはまだ機能していませんでした。PCIeの有効信号が失われていたため、ジャンパー線をもう1本追加しました。今回はうまくいき、PCIeはオンラインに戻り、カードは再び電源投入できました。
トニーはカードが完全に修理されたと思い、再組み立てを試みたが、問題は再発した。PCIeの検出が再び失敗し、ファンは以前と同じように最大回転数で回転し、メモリの1つのフェーズが起動しなくなった。調査してみると、3.3V PCIeスロットレールから供給されるPEXの有効信号が宛先に届かず、実質的にそのフェーズが機能していないことが判明した。最終的な修正は、メモリ有効信号に直接3.3Vを供給する3本目の配線を追加するというものだった。その後、すべて正常に動作するようになった。
PCIeリンクはついに安定し、電力供給は全フェーズでバランスが取れ、GPUはベンチマークとゲームの両方を含むストレステストをフルラウンドでクリアしました。トニーはGPUを慎重に元に戻し、先ほどファンから剥がれ落ちたPNYステッカーも1枚きちんと貼り直しました。これでミッション完了です。
断線した内部配線から、本格的なコアのリボール、そして信号のパッチングに至るまで、あらゆる修理は、工場を持たない多層基板で可能な範囲の限界にまで達しました。ハイエンドのビルド全体よりも高価になる可能性のあるカードにとって、これは修理が可能であるだけでなく、絶対に必要だった稀有なケースの一つであり、Northwest Repairsはまさにその点で素晴らしい仕事をしてくれました。
Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。
ハッサム・ナシルは、長年の技術編集者兼ライターとしての経験を持つ、熱狂的なハードウェア愛好家です。CPUの詳細な比較やハードウェア全般のニュースを専門としています。仕事以外の時間は、常に進化を続けるカスタム水冷式ゲーミングマシンのためにチューブを曲げたり、趣味で最新のCPUやGPUのベンチマークテストを行ったりしています。