9
AMDのロバート・ハロック氏とThreadripper 3990Xについて語る

2020年2月7日更新: AMD Ryzen Threadripper 3990Xのレビューで、このチップが競合製品と比べてどうなっているかをご覧ください。CES 2020で、AMDのシニアテクニカルマーケティングマネージャーであるロバート・ハロック氏にインタビューする機会があり、同社の最新フラッグシップ製品について詳しく伺いました。AMDはすでにThreadripper 3990Xの詳細を明らかにしており、この64コア128スレッドの強力なチップの確かな性能を証明しています。現在、このチップの推奨価格は3,990ドルで、2020年2月7日に発売されることが分かっていますが、いつものように、実際にチップを手にするまでは、多くの疑問が残ります。

48 コアの Threadripper は登場しますか?

Intel は AMD の既存の 32 コアの Threadripper 3970X に対応する能力がまったくないため、64 コアの 3990X を廃止することは HEDT に致命的な打撃を与えることに等しい。AMD によれば、この単一のプロセッサは、一部のワークロードでは Intel の 10,000 ドルの Xeon 8280 の 2 つよりもパフォーマンスが優れているという。

しかし、32コアの3970Xと64コアの3990Xの価格差は約2,000ドルあり、コア数も32コアと明らかに差があります。そのため、CPU-Zのソースコードに記載されているとされる48コアモデルが、中間的な価格帯として妥当性を持つと考えられます。 

しかし、ハロック氏は、現時点で48コアモデルの計画はないと述べた。これは、昨年のThreadripperの売上に基づき、顧客がすぐに最上位モデルに飛びつくか、AMDが「スイートスポット」製品と位置付けている32コアのThreadripper 3970Xを選ぶ傾向があることにAMDが気づいたためだ。つまり、少なくとも現時点では、同社は製品群におけるそのギャップを埋める計画はないということだ。 

Threadripper 3990X のパフォーマンススケーリングとメモリの推奨事項

スワイプして水平にスクロールします

行0 - セル0コア/スレッドベース/ブースト(GHz)TDP希望小売価格
スレッドリッパー 3990X64 / 1282.9 / 4.3280W3,990ドル
EPYC 774264 / 1282.25 / 3.4225W6,950ドル

しかし、64コアの製品を早期に投入することは、技術的に困難な課題です。Threadripper 3990Xは、ハイエンドのEPYC Romeデータセンターチップと同じ基本設計を採用していますが、「単なる」EPYCプロセッサのリバッジ版ではありません。AMDは、EPYC 7742のベースクロック2.25GHz、ブーストクロック3.4GHzから、ベースクロック2.9GHz、ブーストクロック4.3GHzへと大幅に向上させました。 

(画像提供:AMD)

ハロック氏によると、3990Xの高速クロックは、特にレンダリング分野などの高負荷アプリケーションにとって非常に重要とのことですが、多くのプロセッサと同様に、スレッド化されたワークロードではパフォーマンスが直線的に向上するわけではありません。つまり、コア数を32から64に倍増しても、パフォーマンスは倍増しないということです。AMDが公開したスケーリングに適したCinebenchテストでも、パフォーマンスの向上は最大48%にとどまっています。ハロック氏に、これは電力制限によるものか、メモリ帯域幅の制限によるものか、あるいはその両方によるものか尋ねました。

ハロック氏は、「コア数を増やし始めると、ボトルネックは突然、非常に奇妙な場所に移る」と説明した。ディスクI/Oなど、通常は制限とはならない領域が、高コア数マシンではパフォーマンスを低下させる可能性がある。例えば、開発会社はコンパイルワークロード中のディスクI/Oの影響を軽減するために、プロジェクトファイルをWindows Defenderから除外している。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Hallock氏は、メモリスループットがほとんどのワークロードの制限になるとは考えていませんが、コアあたりのメモリ容量が実際には最大の課題の一つだと述べています。そのため、Hallock氏は、コンパイルワークロードには最低でもコアあたり1GB(合計64GB)が必要で、2GB(合計128GB)あればさらに良いと述べています。つまり、3990Xのビルドには、大容量のメモリキットを予算に組み込む必要があるということです。 

メモリスループットが潜在的な制約要因として挙げられるかを詳しく調査しました。Threadripper 3990Xはクアッドチャネルメモリしか利用できませんが、同等のEPYC Romeデータセンター向け製品は8チャネルのDDR4メモリにアクセスできます。これはTRX40マザーボードとの互換性を保つためだけでなく、コンシューマー向けとエンタープライズ向けの製品スタック間のセグメンテーションを維持するのにも役立ちます。 

十分なメモリスループットがないと、プロセッサコアは帯域幅不足に陥り、パフォーマンスが低下する可能性があります。そのため、メモリスループットは、プロセッサコアに十分なデータを与えてフルスピードで動作させるために重要です。そのため、コア数の多いチップでは、通常、メモリを大量に消費するワークロードにおいて、より高い総スループットが必要になります。これにより、個々のコアに十分なデータを与えることができます。

AMDの強みの一つはコア数の多いプロセッサですが、デュアルチャネル16コアのRyzen 9 3950Xではメモリスループットの制限の兆候が既に確認されています。例えば、16コアの3950Xは12コアの3900Xとほぼ同じメモリスループットを利用できるため、コアあたりのメモリ帯域幅は低くなりますが、驚くべきことに、ほとんどのアプリケーションでは大きな影響は見られません。 

私たちは Hallock 氏に、メモリが「たった」4 チャネルしかないことが 3990X のパフォーマンスにどのような影響を与えるのか、またメモリ スループットが制限される可能性のあるチップからどのようにしてこれほどのパフォーマンスを引き出すことができたのかを尋ねました。 

(画像提供:Tom's Hardware)

「64コアではメモリ帯域幅の不足はあまり見られません」とハロック氏は説明したが、DigiCortexのような一部のシミュレーション作業はメモリスループットが高いほど高速になると指摘した。しかし、ほとんどのワークロードは問題なく、メモリスループットに関する懸念は主に過去の印象によるもので、DDR4メモリは比較的少ないチャネル数で十分なスループットを提供できるとハロック氏は考えている。AMDはまた、データをオンチップに保つためのアーキテクチャ上の決定も行っており、例えば、ほぼ考えられないような288MBのキャッシュ容量、3つ目のAGU(アドレス生成ユニット)、より大きなオペキャッシュなど、メモリ帯域幅の課題を克服するためにキャッシュ内にデータを保持するための変更も行っている。

ワークロードの強度もスケーリングを制限する要因の 1 つです。Linux カーネルや PHP などの小規模なコンパイル ジョブは、実行速度が速すぎるためコアのパワーをフルに発揮できずに苦しみます。一方、Android や Unreal Engine のコンパイルなどの負荷の高いジョブは、コアをフルに活用するには長期間にわたって非常に厳しいものになります。 

同じ概念はビデオエンコーディングにも当てはまります。例えば、8K HEVCエンコーディングはH.264よりもはるかにスケーラブルです。ハロック氏は、コア数を2倍にするとレンダリングパフォーマンスが60%から70%向上すると述べ、レンダリングジョブに30分かかる場合は3990Xはおそらく適さないと指摘しました。しかし、レンダリング時間をフレームあたりの時間で測定する場合、3990Xは非常に理にかなっています。レンダリングは明らかに3990Xの主要なターゲットアプリケーションの一つであるため、今後のレビューでは8K HEVCのテストを必ず実施する予定です。

Threadripper 3990X オーバークロック

これらのチップはすぐに研究室に届く予定なので、オーバークロックに大きな変更があるかどうかを Hallock 氏に尋ねたところ、最良の結果を得るには、自動オーバークロック PBO (Precision Boost Overdrive) と強力な冷却機能を使用するという標準的な方法に従うことを勧められました。 

Hallock氏によると、一般的に他のThreadripperモデルと同様のメモリオーバークロック性能が期待できるとのことですが、これはDIMM容量の増加に伴いオーバークロックのヘッドルームが減少するという標準的なルールに従うことを意味します。これは、推奨容量が大きいことを考慮すると重要な点ですが、Hallock氏が指摘したように、容量の恩恵を受けるワークロードは通常、メモリパフォーマンスにそれほど左右されません。 

ハロック氏によると、64GBメモリであればDDR4-3600へのオーバークロックは比較的容易だが、128GBメモリのキットではパフォーマンスにばらつきがあるとのこと。予想通り、256GBメモリのキットではオーバークロックはほとんど、あるいは全くできないと言っても過言ではないだろう。いずれにせよ、プロセッサに4,000ドルも費やすユーザー のほとんどは、オーバークロックに特に力を入れているとは思えない。

Threadripper とワークステーション市場

AMDはワークステーションクラスのパフォーマンスにおいて、紛れもなくリードしています。Cascade Lake-Xは、スレッドワークロードにおいてはThreadripperに全く及びません。しかしながら、これらの強力なチップを搭載したワークステーションは、特に市場に出回っているCascade Lake-X OEMワークステーションの数と比較すると、それほど多くありません。 

「それはなかなか回らない」とハロック氏は述べ、ワークステーション市場はサーバー市場とよく似ていると指摘した。サーバー市場は持続力(ロードマップ上での実績など)を重視し、更新サイクルもはるかに長い。AMDはこの分野ではまだ比較的新参者であり、費用検証サイクルも重要な要素だ。多くの場合、検証コストは新規ハードウェアの調達コストに匹敵する。Cascade Lake-Xは、既に検証プロセスを通過したシステムとの下位互換性という利点があり、これもこの市場セグメントにおける持続力の向上につながる。一方、AMDは新機能を投入するため、Threadripperを搭載した新しいTRX40プラットフォームに移行した。

いずれにせよ、ハロック氏は、AMD がパフォーマンスのリーダーとしての地位を確立するにつれ、市場での同社の地位は向上し続けると見ており、同社にはプラットフォームに関心を持つ顧客からの「売り込み電話」がこれまでよりはるかに多く寄せられていることは間違いない、と述べている。 

Threadripper 3990X か EPYC Rome か?

最後に、シングルソケットのEPYCプラットフォームは、豊富なI/Oとクラス最高のパフォーマンス密度を兼ね備えているため、非常に魅力的です。これほど包括的な機能を提供するシングルソケットのIntelプラットフォームは他に類を見ません。しかし、3990Xは外観もパフォーマンス面でも、フラッグシップモデルのEPYC Romeと非常によく似ています。しかし、これが潜在的な問題を引き起こす可能性があります。同等のEPYCプロセッサは、3990Xよりも約3,000ドルも高価です。つまり、AMDは、プロフェッショナルユーザーにとって3990Xに差別化された価値を提供しつつ、データセンターの顧客にとってより高価なEPYC製品ではなく3990Xを選ぶ理由を与えないという、微妙なバランスを取らなければなりません。

データセンター ユーザーが Threadripper 3990X ではなくシングル ソケット EPYC プラットフォームを選択する理由について Hallock 氏に尋ねたところ、Hallock 氏は、それはメモリ スループットに依存するワークロードに尽きると説明しました。

数値流体力学、細胞シミュレーション、脳神経シミュレーションなどの設計シミュレーションを行う場合は、EPYCをお選びください。追加のメモリチャネルによって処理能力が向上し、これらのワークロードは帯域幅を非常に多く消費します。帯域幅をあまり消費しない場合は、Threadripperのクロック速度を利用できます。VFX市場ではメモリチャネルは全く重要ではありません。重要なのは容量とブーストです。彼らが重視するのはまさにそれです。だからこそ、EPYCではなく、このようなシングルソケット製品がVFXには最適なのです。

2つのプラットフォームの差別化は、データセンター向けとワークステーション向けラインナップの分離に役立ちますが、HPCやHFT(高頻度取引)の多くの顧客が、高いブースト周波数だけでなくオーバークロック機能も備えた新しいThreadripper 3990Xに興味を持つと確信しています。AMDは高頻度取引市場向けに、より高いTDPのEPYC Romeプロセッサを製造していますが、これらの製品がPBO機能を使用して特殊な冷却ソリューションから最大限のパフォーマンスを引き出せるのか、またAMDがこれらのデータセンター向けチップでメモリのオーバークロックを許可しているのかは不明です。

つまり、AMDが3990Xのメモリチャネル数を削減したにもかかわらず、これらのチップの多くがHFTアプリケーションでも高い需要があると予想するのは理にかなっています。もちろん、VFX市場で急速に普及することは間違いありません。

AMDがこの2つの市場をどのように乗り越えていくのか、興味深いところですが、まずはレビューから見守ることになるでしょう。AMDの公式発売日は2020年2月7日で、ご想像の通り、その時には完全なパフォーマンスデータが得られるでしょう。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。