9
AMD Threadripper 3990X:オーバークロック記録10個達成の秘訣

AMDの64コア128スレッドThreadripper 3990Xは、スレッド処理能力の頂点を極めますが、私のThreadripper 3970Xの記事を読んだことがあるなら、この記事は飛ばしていただいて構いません。AMDは単純にパフォーマンスを2倍に向上させているからです。3970Xを2倍にすればThreadripper 3990Xとなり、まさに驚異的なプロセッサとなります。長方形の銅箔の下に、はんだ付けされた8コアチップレット8個が静かにアイドリングし、手の届く範囲のスレッド処理能力を狙っています。128スレッドのレッドパワーは、誰にとっても必要でしょうか?それはあなた次第です。

皆さんが住宅ローンの借り入れ方法や、体のどの部分が不要かなどについて考え始める間に、私がどのようにして世界記録を破り、標準ブースト速度の 4.3 GHz から 5.749 GHz まで到達したかを紹介します。

(画像提供:Tom's Hardware)

では、本題に入りましょう。CPUの周波数やスレッド数をどれだけ高くしても、それと相性の良いオペレーティングシステムがなければ何の役にも立ちません。私がWindowsオペレーティングシステムだけを使うのは、世界記録の検証が目標で、そのためにはWindowsしか使えないからです。 

私は数週間かけて、Windows 10、Server、Enterprise、Pro、Build 19035、1909、1809、911 など、さまざまなバージョンを分類し、3990X の巨大なパワーを処理するのに最適なオペレーティングシステムを探しました。ベンチマークによって好みは異なりますが、Server 2019 1809 と 2012 は比類のないパフォーマンスを発揮し、単純な水冷で液体窒素 (LN2) 冷却スコアを上回ることができました。プロセスを少しだけご紹介すると、姿勢が悪く、顎に手を当てて、数え切れないほどの異なるインストール、レジストリ設定、使用可能なメモリ、プリフェッチャー値をテストしている私の姿を想像してみてください。これは、私の記事でご覧になる、煙をまき散らした華やかな RGB 光線の写真とは全く異なります。「誰でもできる」という話はここで終わります。大変な作業ですが、最終的には、記録がそのすべてを価値あるものにしてくれます。

(画像提供:Tom's Hardware)

ご覧の通り、すべてのテストは報われました。HWBot 4K x265ベンチマークの世界記録は射程圏内にあり、液体窒素(LN2)であれば容易に達成できるはずです。このベンチマークでは、オーバークロックした3990Xを冷水で動作させた場合、スレッド数とコア数が2倍の15,000ドル相当のAMD Epyc CPUとほぼ同等の速度を実現しました。

(画像提供:Tom's Hardware)

極端なオーバークロックでは、Threadripperチップにとってファブリック温度が真の制限要因となります。Threadripperチップは低温状態でポスト(起動プロセスを完了すること)するのが非常に苦手です。 

x265 4Kベンチマーク記録のために、水冷温度0℃でCPUが極度の負荷をかけてもどこまで耐えられるかを試してみたかったのです。0℃でファブリックを1867MHzで動作させても、温度が低すぎるためポスト処理に問題が生じました。ポスト処理とOS起動にはポンプを停止する必要がありました。これによりウォーターブロックへの水流が遮断され、チップの温度が上昇します。OS起動後は、CPUは予想通り低温に反応し、快適に動作します。1.4vCore、全64コア、4.5GHzで動作させたところ、0℃でピーク電力は1280ワットに達しました。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

単純な周囲冷却の場合、ファブリックは一日中問題なく 1867MHz で動作します。 

(画像提供:Tom's Hardware)

液体窒素で遊ぶ前に、最後にもう1つ退屈なテストの小ネタを。これらのプロセッサは、同時マルチスレッド(SMT)をオフにしても非常に良好なパフォーマンスを発揮します。クロックを高く設定でき、消費電力を抑えられるだけでなく、「2ノード」互換性を必要とせずにベンチマークプログラムも概して良好なパフォーマンスを発揮します。Wprime32、Wprime1024、Cinebench R11.5はいずれもSMTをオフにすると約30%高速化し、通常のカスタム水冷システムではクロックは4.5GHz台に十分達します。

SMTオンの3970XとSMTオフの3990Xをそれぞれ64スレッドで比較してみるのも興味深いでしょう。Wprime1024では、両プロセッサとも4.5GHzで64スレッドがアクティブの状態で、3970Xは17.5秒でクロックアップするのに対し、3990Xはわずか12.5秒です。これは、スレッド数だけが考慮すべき要素ではなく、物理コアの方がはるかに高速であることを示しています。

ここから、まだ触れていない別の情報につながりますが、3990Xのメモリオーバークロックは3970Xに比べて遅くなっています。ダイの数が多いと、明らかに難しくなるようです。私がテストした3、4基の3970Xプロセッサは、いずれも14-14-14-14-1Tというタイトなレイテンシで4600~4800MHzのメモリクロックを容易に動作させることができました。しかし、この3990Xを4400MHz以上で動作させようとあらゆる手段を講じましたが、失敗しました。これは問題なのでしょうか?実際にはそうではありません。ほとんどの場合、メモリ周波数、ファブリッククロック、Uclockを1:1:1で一致させようとしているからです。しかし、それでも注目に値すると思います。

平均的な3990Xであれば、シリコンの運次第では4.3~4.4GHz程度の快適な範囲でオーバークロックできると水冷に期待しています。ハイエンドの空冷は4.00~4.1GHzあたりが限界です。このチップに4,000ドルもかけるなら、もう少しお金をかけてしっかり冷却しましょう。

(画像提供:Tom's Hardware)

LN2リグ:

CPU: AMD 3990X スレッドリッパー

マザーボード: ASRock TRX40 Taichi

メモリ: G.Skill NEO 4x8GB NEO 3800C14

電源: 24ピンジャンパーで接続されたEnermax Maxtytan 1250W×2

CPU コンテナ: 8ECC TR Ln2 ポット

サーマルペースト:Thermal Grizzly Kryonaut 

ゴムコーティング:プラスティディップイエロー(防湿)

(画像提供:Tom's Hardware)

オーバークロックにはASRock TRX40 Taichiを使用しました。これは3970Xに使用したのと同じマザーボードです。ASRockは64コアのThreadripperを念頭に設計したため、16フェーズの90アンペア電源を搭載しています。VRMはどれだけの電力を処理できるのでしょうか? すべてです。あの巨大なVRMクーラーは、冗談ではありません。 

実は、CPUに必要な電力を全て供給するために電源を2つ使っていました。+12Vレールで104Aを出力する、シングルレールのEnermax Maxtytan 1250W電源を2台使っています。これらを、セカンダリ電源に電源を投入するだけのシンプルなデュアル電源アダプターで接続しました。 

しかし、8ピンアダプタを使うと話が変わってきます。これは、8ピンCPUと6ピンPCIeを1つの8ピンCPUコネクタにまとめたものです。最適な負荷分散方法は、電源ユニット1から6ピンPCIeケーブルを、電源ユニット2からCPUの8ピンケーブルを取り出し、マザーボードの8ピンコネクタ1に接続することです。 

次に、マザーボードの8ピンコネクタ2番に逆の手順で接続します。マザーボードは2台の電源ユニットを動作させることを想定していないため、負荷は50/50%に分割されませんが、様々な組み合わせをテストした結果、この構成で2台間の電力配分が約35/65%となり、最も近くなりました。3970Xでは電源ユニット1台だけでピーク電力が約1500Wになることが問題なく分かっているので、アンバランスはさておき、2台搭載すれば十分な余裕が生まれるはずです。 

(画像提供:Tom's Hardware)

GSkillはNeoシリーズのメモリをAMDシステム向けに特別に設計しているため、タイトなレイテンシと低周波数でも優れた結果を実現しています。11-11-11-11-1tタイミングで3200MHz、または14-14-14-14-1Tタイミングで4400MHzを実現でき、どちらの設定でもBダイメモリキットとしては極めて低い電圧で動作可能です。これまでにもビンニングされたBダイメモリのサンプルを数多く入手してきましたが、このキットはこれまでのどのキットよりも圧倒的に優れています。

Geekbench3は、私が初めて液体窒素ベンチマークテストの対象としたマシンです。64コアでは非常に苦痛なベンチマークで、完了するまでに約2分かかります。もちろん、最も難しいサブテスト(レイトレース)は、1分45秒あたりで最後の方に出てきます。このテストの合格率は、最先端テストでは約10%です。1800Wの負荷を-160℃で2分近くもかけてバランス調整するなんて想像できますか?1回の実行で約1.5リットルの液体窒素(LN2)を使用し、約3ドルもかかります。これはとんでもない話ですよね?

(画像提供:Tom's Hardware)

Geekbench3で世界記録を樹立した後、Cinebench R20に切り替えました。比較すると、こちらはごくわずかです。テストは約5秒で終了し、負荷はかなり重いものの、負担が大きすぎるほどではありません。スコアは大きく変動しますが、このような構成では正常なことです。

数分間のベンチテストの後、記録は完了しました。これで今日の作業は終了です。内部スロットのメモリは完全にフリーズし、すべて正常に動作していますが、すべてがまだ生きているうちに終了した方が良いことがわかりました。

(画像提供:Tom's Hardware)

2日目は、以前SMTをオフにした方が良さそうだと分かっていたベンチマークテストに挑戦しました。まずはWprime 1024mを試しました。クロックはCinebench R20と同じ設定にしました。スレッドを半分有効にすれば簡単にクリアできるはずです。驚いたことに、ファブリックを1867MHzに設定しても、5.4GHzまで動作しました。 

3990Xのパフォーマンスにおいてファブリックは重要な役割を果たしていますが、オーバークロックをする私にとっては悩みの種です。可能な限り高速に動作させる必要があるのですが、何度も言ってきたように、ファブリックは冷たくなるのが本当に苦手です。このプロセッサは、いわゆるパフォーマンスの限界に達します。これは、AMDのエンジニアと世界記録を競ったCinebench R20で非常に顕著でした。ファブリック周波数を高くすると、CPU周波数は低下します。実に簡単です。

(画像提供:Tom's Hardware)

理想的には、このチップには可能な限り高いファブリック周波数(1867MHz)が必要です。1867MHzでは、5.1GHzが最大安定コア周波数となり、Cinebench R20で39,000のスコアが得られます。ファブリック周波数を1600MHzに下げると、5.27GHzでも合格となり、同じベンチマークで39,000のスコアが得られます。中間の1733MHzファブリックで動作させると、5.2GHzでも合格しますが、R20では39,000のスコアが得られます。これが私がこれをパフォーマンスキャップと呼ぶ理由です。ファブリックとコア速度の任意の組み合わせを限界まで動作させても、同じスコアが得られるのです。

SMTを無効にすることで、このパフォーマンス上限を完全に回避できます。1867MHzのファブリックを動作させながら、CPUを最大限まで使い切ることも可能です。これはwPrimeの世界記録である5.4GHzにも表れています。ファブリックの速度を下げる必要はありません。なぜこのようなことが起こるのでしょうか?理由は分かりませんが、実際に発生することが分かったので、誰かが調査してくれることを期待しています。

(画像提供:Tom's Hardware)

要約

  • 世界記録 Wprime1024 
  • 世界記録 GPUPI 1B
  • Geekbench 3の世界記録
  • シネベンチR20の世界記録
  • 世界記録 X265 1080p
  • 世界記録シネベンチR15
  • 世界記録 シネベンチ R11.5
  • 32倍コアレコードX265 4K
  • 32倍コアレコード Wprime32
  • 3990X周波数記録: 5749MHz

電力面では、ベンチマークに応じて1.65vCoreでシステムの消費電力は1200~2000Wでした。OSをアイドル状態にしているだけで375Wを消費しましたが、これはCore i9-9900Kの高負荷時の電力バジェットのほぼ全てに相当します。そのため、3990Xマシンは電源投入から電源切断まで、液体窒素を常にかけ続ける必要があります。 

(画像提供:Tom's Hardware)

結局のところ、世界はこのCPUを受け入れる準備ができているのでしょうか?プロフェッショナル市場を除けば、これはAMDの実力を示すショーケースといったところでしょうか。なぜそう感じるのでしょうか?まず、私の知り合いで4,000ドルも出してこのCPUを喜んで購入する人はいません。それに、Windowsは日常的に使うコンピューターで128スレッドに対応するには到底無理があるように思います。 

誤解しないでください。スコアを見れば一目瞭然です。これらのチップの性能に匹敵するほどの性能を持つものは、これまで見たことがありません。これはスーパーカーであり、普段の買い物用ではありません。私はそれで全く問題ありません。また、Threadripper 3970Xが1999ドルでお買い得に見えるほどの性能も備えています。32コアだけにお金を惜しまずに買ったことで、どれだけ節約できたかを実感できるでしょう。 

詳細: 最高のCPU

詳細:  IntelとAMDのプロセッサ階層

詳細: すべてのCPUコンテンツ

 オーバークロッカーとして世界チャンピオンに輝き、速度記録を追跡するサイトHWBotで頻繁にトップに立つアレンは、CPUを限界まで追い込むためならどんなことでもする。彼は、ハードコアで限界まで追い込むオーバークロッカーの視点から、最新プロセッサに関する洞察をTom's Hardwareの読者に共有する。