
AMDのEPYC 7002「Rome」サーバーチップの最新プロセッサリビジョンガイドには、興味深い新たなバグ(エラッタ)が発見されています。このバグにより、チップ上のコアが1,044日間(約2.93年)の稼働後にハングアップし、チップを正常に動作させるにはサーバーをリセットする必要があります。AMDはこの問題は修正しないと発表しています。
AMD の第 2 世代 EPYC プロセッサ (AMD の第 4 世代 Genoa チップが最新) に影響するこの問題に関する AMD の説明は簡潔ですが、解明すべき点はたくさんあります。
チップのエラッタはよくあるが、それほどでもない
数十億個のトランジスタが動作するチップでは、問題の発生は避けられません。チップに1,000個以上のエラッタやバグが存在することは珍しくありません。これらのエラッタやバグは、チップの最新バージョンや発売前のファームウェアの微調整で修正されます。これらのエラッタには、セキュリティホールから、フラグの誤動作、キャッシュタグの誤動作まで、あらゆる種類のバグが含まれる可能性があり、チップメーカーは発売前にそれらを徹底的に排除しようと全力を尽くします。
しかし、出荷中のチップであっても、何らかのエラッタは常に残ります。例えば、Intelの第8世代チップには、2017年に発売されたにもかかわらず、150件以上のエラッタが未だに残っています。AMDは解決済みのエラッタのリストから削除しているため、Romeチップにどれだけのエラッタがあったかは不明です。しかし、39件のエラッタが残っていることは分かっており、Intelの現状を考えると、それほど悪くない数字と言えるでしょう。
一部のエラッタは、単に害を及ぼさないという理由で修正されずに残されますが、攻撃ベクトルを無防備にする可能性のある重大なエラッタを除き、機能関連のエラッタの中には、パッチが適用されないものもあります。チップメーカーは、エラッタの重大性、問題の修正の容易さ、そしてエラッタの数がさらに多くても修正する価値があるかどうかなど、様々な要素を考慮します。これは容易な作業ではありません。その他のバグはソフトウェアまたはファームウェアの修正で修正できますが、これも必ずしも労力に見合うものではありません。さらに悪いことに、修正によってパフォーマンスが低下する可能性もあり、チップメーカーは新たな要素を検討する必要があります。
AMDはなぜもっと早くこの問題に気づかなかったのでしょうか?2.93年という期間は検証と品質保証のサイクルよりも長く、また、加速劣化試験(機器の劣化プロセスをシミュレートするために、通常よりも高い温度で長期間にわたって試験を行うことが多い)でこのバグを検出できるかどうかも不明です。AMD EPYC Romeチップは2018年後半にリリースされたため、AMDの顧客の中には、導入段階で既にこの問題に遭遇している人もいるかもしれません。
EPYC RomeがUptime Clubから追放される
そして、ただ稼働時間クラブに加わって記録を樹立したい人たちもいます。そのためには、ボイジャー2号宇宙船に搭載されたコンピューターを破らなければなりません。そう、星間空間に2番目に突入したコンピューターです。そのコンピューターは16,735日(48年以上)稼働しており、今も稼働し続けています。
地上記録としては、6,014日(16年)がサーバーの記録らしいですが、他にもこの記録を狙う候補が数多く議論されているのを目にしました。(小規模な/r/uptimeporn/Redditコミュニティには、稼働時間を延長した事例が数多くあります。)
いずれにせよ、EPYC Romeチップでそのような記録を破ることはできません。このエラッタは修正されないため、いかなる状況下でもすべてのコアが1,044日のしきい値を大幅に超えることはありません。AMDの発表によると、この問題は修正されないとのことですが、おそらく同社はシリコンレベルでの修正にはコストがかかりすぎると判断したか、マイクロコード/ファームウェアの修正にはパフォーマンス上のオーバーヘッドが大きすぎると判断したか、あるいは影響を受ける顧客数が修正に見合うほどに少ないと判断したのでしょう。
どちらの場合でも、サーバーの CC6 スリープ状態を無効にすると、夜間の睡眠に役立ちます。または、約 1,000 日ごとに再起動するようにすることもできます 。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。