51
AMD、7nm EPYC Romeプロセッサを発表。最大64コア、128スレッド、価格は6,950ドル

クレジット: Tom's Hardware

(画像提供:Tom's Hardware)

AMDの7nmプロセッサーの発表は、同社がインテルからプロセスリーダーシップを奪った初めてのケースであり、その優位性は計り知れない。TSMCの7nmプロセスと、AMDのチップレットベースのZen 2マイクロアーキテクチャーを組み合わせたAMDのEPYC Romeプロセッサーは、同社がインテルのデータセンター市場シェア約95%を本格的に奪取できる転換点になると広く考えられている。サーバー市場の20%を奪うだけでも、長年の弱小企業であるAMDに真に変革をもたらすインパクトを与えるだろう。インテルが1日で生み出す利益がAMDの四半期全体の利益を上回っていることを考えれば、AMDがこの瞬間に至るまでに克服してきた一見乗り越えられない困難がどんなに大きくなったかが分かるだろう。

いつものように、すべてはシリコンから始まりますが、データセンターには、オペレーティングシステムとソフトウェアの最適化、OEMとの関係構築、そして堅牢なハードウェアエコシステムの確立など、多角的な視点からの長期にわたる開発期間が必要です。これは、Zenのような全く新しい独自のアーキテクチャにおいては、さらに重要です。 

AMDの第一世代EPYC Naplesプロセッサは、業界が新しいZenマイクロアーキテクチャに慣れ親しむ機会となりました。これらのプロセッサはIntelのXeonチップに対していくつかの利点を提供しましたが、大きな変化には時間がかかり、Naplesには業界をAMDシリコンに一斉に切り替えるきっかけとなるようなキラー機能が欠けていました。特に、新しいアーキテクチャの導入に非常に慎重なことで知られる業界にとってはなおさらです。

Naples シリコンが市場に登場した (2017 年にデビュー) ことで、AMD は重大な影響を及ぼすもう一つの大きな決断を迫られました。デスクトップ チップの場合と同じように、EPYC を段階的に高速化して効率を高める 12nm プロセスに移行するか、7nm プロセスに直接移行することに焦点を当てるかです。

AMD は、いわば肝心なところを狙うことを選択し、7nm プロセスへと突き進み、密度と消費電力の大幅な改善の土台となるキラー機能を実現しました。 

7nmプロセスは、Intelの14nmプロセスに比べて密度の優位性をもたらし、コア数の増加につながります。また、消費電力の削減(ただし、12nm I/Oダイには制約があります)により、ワットあたりの処理能力の向上(データセンターでは重要な考慮事項)、クロック速度の向上、キャッシュ容量の増加、そして非常に競争力のある価格設定につながります。これに、チップレットベースの設計に固有のコストと歩留まりの優位性、IPC(命令/サイクル)スループットを約15%向上させる改良されたZen 2アーキテクチャ、PCIe 4.0への迅速な移行、そしてx86プロセッサとしては業界をリードするメモリチャネルとスループットを組み合わせると、EPYCはもはやIntelの「代替」とは見なされなくなります。HPCおよびスーパーコンピューティング分野におけるRomeの爆発的な普及が示すように、EPYCは今や業界の有力企業を惹きつける最先端機能のリーダーとして認識されています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

画像

1

11

本日、AMDのパートナー企業が80件の世界記録を更新することになり、これらの早期の取り組みの根拠が明らかになりました。これは、AMDがデータセンター用シリコンで達成した世界記録としては最多となります。驚くべきことに、これらの記録は、実世界の幅広いワークロードにおいて、40~50%から最大80%まで、大幅な向上を記録しています。このパフォーマンス向上は、浮動小数点性能の4倍向上と、AI/MLワークロードにも役立つ大容量のL3キ​​ャッシュに加え、業界をリードするI/O性能によってGPUアクセラレータのスループットが2倍に向上したことによるものです(サーバーあたりのアクセラレータ数の増加は言うまでもありません)。PCIe 4.0のスループット向上は、ストレージデバイス、特にメインメモリからのバースト処理にもメリットをもたらします。

デスクトップPC市場はフラッシュバルブを掲げ、Ryzen 3000の発売をめぐる熱狂ぶりを見ればそれが分かります。しかし、データセンター市場は間違いなく、高い利益率と高いボリュームが求められる分野です。データセンターこそがキングメーカーであり、その事実はIntelの事例を見れば明らかです。

AMDがIntelとのより大きな戦いに勝利するためには、データセンター分野での争いに勝たなければなりません。しかし、Intelもただ傍観しているわけではありません。今後数年間、データセンターをめぐる戦いがどのように展開していくのか、見守っていきましょう。

AMD EPYC Romeプロセッサ

EPYC Rome SoCは、最大8個の7nmコンピューティングダイ(各ダイは8コア)で構成される独自のアーキテクチャを採用しています。これらのダイは、Infinity Fabricを介して、メモリとPCIeコントローラを収容する中央の12nm I/Oダイに接続されています。AMDは、各モデルに合わせてコンピューティングチップレットの数とアクティブコアの数を調整しています。

クレジット: Tom's Hardware

(画像提供:Tom's Hardware)

これらのプロセッサは、PCIe 4.0接続は失われるもののNaplesプラットフォームとの下位互換性を持つSocket SP3(FCLGA 4094)インターフェースを採用しており、次世代EPYC Milanモデルとの上位互換性も備えています。カスタムビルドプラットフォームでは、巧妙なプロビジョニングトリックにより最大162レーンのPCIe 4.0をユーザーに提供できますが、標準的な実装では128レーンしか利用できません。

AMD は、2 ソケット サーバー (2P) 用の特定のモデルと、シングル ソケット サーバー (「P」サフィックスで示される) 用のモデルを提供し続けています。

画像

1

2

Romeのコア数は、8コア16スレッドから、x86業界をリードする64コア128スレッドまで幅広く対応しています。通常、コア数/TDPが上昇するにつれてターボ周波数は低下すると予想されますが、これはRomeのベースクロックでも同様です。しかし、AMDはこの傾向に逆らっています。実際、コア数が最も多いモデルには、ブースト周波数も最も高くなっています。

ベースクロック速度は2.0GHzから3.2GHz、ブーストクロック速度は3.0GHzから3.4GHzで、Naplesの前モデルと比べてピーク周波数が全般的に大幅に向上しています。一部のモデルではコア数が2倍になっていることを考えると、これは非常に印象的です。AMDによると、ベース周波数の向上により、コアあたりのパフォーマンスにおけるIntelの優位性がいくらか相殺されるはずだとのことです。

AMDの電力を考慮したブーストアルゴリズムは、高いマルチコア周波数も可能にし、EPYC 7742は全コア負荷時に驚異的な3.2GHzを維持できます。一方、Intelの汎用最大となるCascade Lake Xeonは28コア56スレッドを搭載しています(ただし、異色のCascade Lake-APは汎用機としては考慮していません)。この数値は、Intelが2020年前半に新しい56コアCooper Lakeモデルを発売するまで変わりません。

Romeプロセッサはすべて、1台あたり2TB、サーバーあたり最大4TBのメモリをサポートし、DDR4-3200の8チャネルに分散されています。これは、XeonのDDR4-2933の6チャネルと比べて大幅に向上しています。Romeの8チャネルメモリは、コアあたりのメモリスループットに関する懸念を引き起こしましたが、AMDは、コア数の増加、さらには2ソケットまでのパフォーマンス向上に対応していると主張しています。Intelは、来年発売される14nm Cooper Lakeチップの発売時に、DDR4サポートを最大8チャネルにまで拡大すると予想されていますが、速度は未定です。

Romeは、シングルソケットモデルを含む全モデルで128レーンのPCIe 4.0を基本レベルで提供し、最大162レーンをユーザーに公開できます。注目すべきは、シングルソケットサーバーとデュアルソケットサーバーの両方で、128/162レーンのPCIe 4.0をユーザーに公開できることです。PCIe 4.0インターフェースはPCIe 3.0の2倍のスループットを提供し、これはIntelの現世代製品では到底実現できない機能です。IntelはIce LakeプロセッサでPCIe 4.0をサポートすると噂されていますが、これは2020年第2四半期に登場予定であるため、PCIe 4.0搭載の新型GPU、ネットワーク、ストレージデバイスなどの高速I/Oデバイスに対するIntelのスタックには弱点が残ります。

RomeのL3キャッシュは機種によって異なりますが、64コアモデルでは最大256MBという驚異的な容量です。AMDは、192MBまたは256MBのL3キャッシュを搭載した48コアモデルと、64MBまたは128MBのL3キャッシュを搭載した32コアモデルも提供しており、特定のワークロード向けにカスタマイズされた高性能モデルも提供しています。最も高性能なRomeモデルは、2ソケットサーバーで約0.5GBのL3キャッシュを搭載しています。

AMDはRomeのラインナップを120Wから225Wまでの5つの異なるTDPレンジに分割しています。これらのTDPレンジはSKUごとに変更可能で、ユーザーは各モデルから最大240WのcTDPまで、より高いパフォーマンスを引き出すことができます。高TDPレンジではカスタムビルドのプラットフォームが必要になることが多いため、旧世代のサーバーすべてが240W TDPをサポートできるわけではありません。新しいピークTDPは前世代モデルを超えていますが、これはRomeが最大2倍のコア数を搭載しているため、予想通りです。

AMD EPYC Romeの価格

AMDはEPYC Romeシリーズの公式価格を発表していませんが、情報筋によると以下の通りです。AMDは、あらゆる価格帯において、パフォーマンスリーダーシップ、コア数、メモリ帯域幅、I/Oの多さを提供することを目指しており、これはIntelよりも優れた総所有コスト(TCO)を実現するとしています。

スワイプして水平にスクロールします

EPYC ローマ SKUコア/スレッドベース/ブースト(GHz)L3キャッシュ(MB)TDP(ワット)1K単価
774264 / 1282.25 / 3.42562256,950ドル
770264 / 1282.0 / 3.352562006,450ドル
764248 / 962.3 / 3.22562254,775ドル
755248 / 962.2 / 3.31922004,025ドル
754232 / 642.9 / 3.41282253,400ドル
750232 / 642.5 / 3.351281802,600ドル
745232 / 642.35 / 3.351281552,025ドル
インテル Xeon 828028 / 562.7 / 4.038.520510,009ドル
インテル Xeon 827628 / 562.2 / 4.038.51658,719ドル
インテル Xeon 827026 / 522.7 / 4.035.752057,405ドル
740224 / 482.8 / 3.351281801,783ドル
インテル Xeon 826824 / 482.9 / 3.935.752056,302ドル
735224 / 482.3 / 3.21281551,350ドル
インテル Xeon 825624 / 483.8 / 3.916.51057,007ドル
インテル Xeon 826024 / 482.4 / 3.935.71654,702ドル
インテル Xeon 625224/482.1 / 3.735.751503,665ドル
730216 / 323.0 / 3.3128155978ドル
728216 / 322.8 / 3.264120650ドル
インテル Xeon 825316 / 322.2 / 3.035.71653,115ドル
インテル Xeon 521816 / 322.3 / 3.9221251,273ドル
727212月24日2.6 / 3.264120625ドル
インテル Xeon 421412月24日2.2 / 3.216.51001,002ドル
インテル Xeon 622612月24日2.8 / 3.719.251251,776ドル
72628月16日3.2 / 3.4128155575ドル
72528月16日3.1 / 3.264120475ドル
シングルソケットSKU
7702P64 / 1282.0 / 3.352562004,425ドル
7502P32 / 642.5 / 3.351281802,300ドル
7402P24 / 482.8 / 3.351281801,250ドル
7302P16 / 323.0 / 3.3128155825ドル
7232P8月16日2.8 / 3.232120450ドル

これはIntelの競合Xeonスケーラブル製品群のすべてを網羅したものではなく、Intelには28コアを越える製品もありませんが、基本的な話は真実です。AMDはあらゆるセグメントでより多くのコアとスレッドを提供し、L3キャッシュは最大3倍も大容量でありながら、大幅に低価格です。実際、Intelの28コアモデルは、AMDの最もパワフルな64コア128スレッドモデルよりも高価です。

AMDのTDP範囲はIntelの高コア数モデルよりも低いですが、両社ともコア数が少ないチップではほぼ同等のTDP範囲を提供しています。AMDは7nmチップレットで電力面で優位性があるものの、12nmの大型I/Oダイが三次的な電力消費を追加していることは注目に値します。いつものように、TDPは消費電力の指標ではないため、両スタック間の相対的な電力効率を評価するには、サードパーティの分析を待つ必要があります。 

AMDのSoCは、プロセッサに標準搭載されたPCIe 4.0レーンの拡張性により、ホストマザーボード上にチップセットを必要としません。これにより、コストとプラットフォームの消費電力が削減されます。

AMD EPYC Romeのパフォーマンス

AMD は、7nm プロセスで製造された Zen 2 アーキテクチャに新機能を追加することで、Zen マイクロアーキテクチャのパフォーマンスを大幅に向上させましたが、同社はすでに 2021 年までに 7nm+ プロセスで Zen 3 マイクロアーキテクチャの開発を進めています。 

画像

1

5

AMDは、Naplesチップと比較してソケットあたりのパフォーマンスが2倍になり、256ビットAVXスループットを2倍にすることで理論ピークFLOPSが4倍になったと主張しています。Romeは最大204GB/秒のメモリスループットを提供し、ソケットあたり最大4TBのRAMをサポートします。PCIe 4.0対応により、ピークI/Oスループットは512GB/秒です。RomeはPCIe 4.0をサポートする最初のx86サーバーチップですが、IBMのPOWERアーキテクチャは既にこのより高速な規格をサポートしています。

100種類近くのSKUを持つIntelのXeonスタックとは異なり、AMDはスタックを8コア、12/16コア、24/32コア、48/64コアの4つのスイムレーンに最適化し、非常に限定的なセグメント化で合計19のSKUを提供しています。Intelとは異なり、AMDはPCIeレーンやメモリ速度/チャネルといった機能を制限してスタックを差別化することはありません。

AMD は、64 コア モデルを搭載したシングル ソケット サーバーは、Intel 8280M までの Intel デュアル ソケット サーバーよりも優れたパフォーマンスを発揮できると主張しています。

AMD EPYC ローマのセキュリティ

AMDはSpectre v2の緩和​​策をシリコンに組み込み、パフォーマンスへの影響を軽減しています。AMDはSpectre v4に加え、IBRSとIBPBにもパッチを当てています。Romeは、昨年発生した投機的実行の脆弱性全般に対して、Intelほど脆弱ではありません。Romeはセキュアメモリ暗号化機能もサポートしています。

画像

1

5

AMDの信頼のルートは、独立したISAで独立したコードを実行するセキュアプロセッサによって実現されます。また、チップのメモリコントローラにはAES-128エンジンが搭載されており、キーはセキュリティプロセッサによって管理されます。そのため、キーはx86ドメインから隔離されています。チップは最大509個の暗号化されたハードウェアゲスト(キー)をサポートします。SMEは物理メモリ攻撃から保護し、ハードウェアレベルまたはハイパーバイザーレベルのいずれかで実行できます。SEVはSME上に構築されており、各ゲストがセキュアプロセッサによってのみ管理される独自のキーを持つことができます。これにより、ゲストは互いに、そしてハイパーバイザーからも分離されます。

AMD EPYC Rome Zen 2 マイクロアーキテクチャ

EPYC Rome は、Ryzen 3000 シリーズ プロセッサと同じ基盤マイクロアーキテクチャを使用しているため、サイクルあたりの命令数 (IPC) スループットが 15% 向上するなど、世代間の改善点は同じです。

7nm プロセスが基礎となり、密度が 2 倍になり、任意の電力ポイントで最大 1.25 倍の周波数を実現できます。また、調整することで、前世代モデルと同じレベルのパフォーマンスを維持しながら消費電力を半分に抑えることもできます。

画像

1

9

Zen 2マイクロアーキテクチャはよく話題に上りますが、ハイレベルな改良点としては、パーセプトロンベースの予測ユニットを補完する第2段階として機能する新しいTAGE分岐予測器が含まれます。また、L3キャッシュ容量を倍増し、L1命令キャッシュを8ウェイアソシエティビティに移行したことで、L1キャッシュを縮小し、オペキャッシュを倍増させることができました。

AMDは256ビットAVXを常にサポートしていましたが、命令を2つの128ビットパイプに分割する必要がありました。Zen 2では、AMDはデータパス幅とベクターレジスタファイルを倍増しました。ロード/ストアユニットへの変更には、ストアキューの拡大とL2 DTLBブロックの拡張が含まれます。また、AMDはリード/ライト幅を256ビットに拡張し、ロード/ストア帯域幅を3倍にしました。

各コンピュートチップレット(CCD)は、標準的な4コアCCX 2基で構成されていますが、L3キャッシュ容量が2倍に増加し、メインメモリへのアクセス回数を削減しています。AMDはまた、新しいNUMA構成によって実効メモリレイテンシも削減しました。これについては後述します。

AMD EPYC Rome マルチチップ ハイブリッド チップレット アーキテクチャ

Romeはこれまでと同様にSoC設計に基づいていますが、8コアのコンピューティングチップレットを統合するために12nm I/Oダイを採用しました。コンピューティングチップレットの設計は、コンシューマー向けRyzen 3000の部品と共通です。チップレットベースのアーキテクチャは、ダイが小型化されることで得られる歩留まりの利点により、コスト面でのメリットをもたらします。また、コンピューティングコアが複数のダイに分散されている場合、レチクル制限が適用されなくなるため、AMDはソケットにより多くのシリコンを搭載できます。そのため、AMDは最大約1000mm 2のシリコンを1つのパッケージに詰め込むことができ、これは320億個のトランジスタに相当します。

画像

1

8

12nm I/Oダイは、8つのインフィニティファブリックリンクでチップレットを結合します。DDR4およびPCIe 4.0コントローラはI/Oダイ上に配置されているため、プロセッサはメモリアクセスのレイテンシを前世代チップの3層レイテンシプロファイルとは対照的に、同等に抑えることができます。これにはNUMAパフォーマンスの向上という副次効果もあります。RomeチップはNUMAドメインを2つに減らしましたが、Naplesチップは3つでした。これは、2つのドメインのレイテンシがそれぞれ104nsと201nsに均等に分散されることに相当し、19%と14%の削減となります。チップは3つのNUMAドメインに構成することもでき、その場合、追加ドメインのレイテンシは94nsになります。

AMDは、アンコアが不要または完全に使用されていない場合に電力を節約する、動的アンコアDVFSシステムを追加しました。節約された電力は、コンピューティングコアに割り当てることができます。Intelとは異なり、AMDは処理中の命令の種類に基づいて周波数を下げるのではなく、消費電力を考慮しています。これにより、Romeはコア数の多いモデルでも高い最大ターボブースト率を維持できます。これは、上のアルバムにある7742の最大周波数ブーストチャートに示されているように、特にマルチコアターボ率が高い場合に有効です。

AMDはソケットあたりのコア数を倍増させただけでなく、Infinity Fabricの帯域幅もほぼ倍増させました。第1世代プラットフォームでは、2ソケットシステムにおける2つのプロセッサ間のスループットが10.7GT/sでしたが、Rome向けに最適化されたプラットフォームでは最大18GT/sに達します。AMDはInfinity Fabricのクロックあたりの読み取り幅を32Bに倍増させましたが、書き込み幅は16Bのままです。Infinity Fabricには、使用率が低い期間に電力を節約するためのリンク幅管理システムも搭載されており、同じ技術がメモリサブシステムにも適用されています。

Romeは最大410GB/秒のメモリスループットを提供し、これはIntelのピークスループット282GB/秒をはるかに上回ります。AMDは、高コア数のサポートを強化するためにx2APIC拡張機能を追加し、メモリ帯域幅とL3キャッシュアクセスのQoS(Quality of Service)メカニズムを強化し、不揮発性メモリ用の新しいコマンドもサポートしました。

画像

1

2

RomeのI/Oリンクは、ソケット間接続専用にすることも、標準的なPCIeリンクとして使用することもでき、様々な用途に合わせて構成できます。これにより、シングルソケットシステムで128レーンをサポートできます。PCIeサブシステムは分岐もサポートしており、x16リンクあたり最大8つのデバイスを接続できます。

同社のRadeon Instinct GPUを採用した一部の2Pシステムでは、ソケット間リンクを無効にすることでI/Oレーン数を増やすことができるという賢明な戦略が取られており、2ソケットサーバーでは最大162レーンのPCIe 4.0をユーザーに公開できます。これらの技術には、第1世代Naplesシステムとは互換性のない特殊なプラットフォームが必要です。

すべての Rome プロセッサはシングル ソケット サーバーで動作できますが、AMD は特定のエコシステムを駆動するために、シングル ソケット システム専用のモデルを保持しています。

考え

理論上、AMD EPYC Romeプロセッサは、革新的で比類のない機能と前例のないコア数を兼ね備えた、優れたパフォーマンスを発揮するプロセッサのように見えます。当社のようなラボでの第三者機関による検証を待つ必要がありますが、チップが期待に応えれば、RomeはAMDのデータセンターにおける転換点となる可能性があります。

Intelは、アクセラレータやOptane DCパーシステントメモリとの緊密な統合といったプラットフォームレベルの優位性を積極的にアピールしていますが、価値提案を高める補完的な製品と捉えられるものも、ベンダーロックインと捉えられる可能性があります。すべては視点次第です。

インテルは、14nmプロセスで56コアのCooper Lakeモデルという形で自社製の高コア数モデルも投入予定であることを、パートナー企業や顧客に周知徹底させています。ただし、これらのチップは来年まで登場せず、PCIe 4.0接続も搭載されていません。競合するインテル製システムが間もなく登場する中、インテルが顧客によるEPYC Romeプロセッサへの最適化への投資を阻止しようとしているのは明らかです。

画像

1

6

データセンターや企業顧客にとって、ソフトウェアスタックとハードウェア構成の検証には、特にミッションクリティカルなアプリケーションの場合、かなりの作業量が必要になります。新しいハードウェアをサポートする新しいシステムを立ち上げるには膨大な時間と費用がかかるため、AMDは顧客への移行を説得するのに手一杯になるでしょう。しかし、だからこそ同社は継続的なロードマップと確実な実行力を強調しているのです。潜在的な顧客に、これらの投資が長期的に見れば報われることを理解してもらいたいのです。

AMDは第1世代Naplesプロセッサで賢明な判断を下したように、より大規模なハイパースケール企業やクラウドサービスプロバイダーに注力することで、同社の限られたリソースにかかるオーバーヘッドを軽減しています。CSPとの連携は、クラウドベースのインスタンスのエコシステムを構築し、見込み顧客が先行投資の負担なく新しいハードウェアをテストできるようにすることで、エコシステムの強化にもつながります。

AMDのRomeが期待通りの成果を上げれば、Intelの最大の強みはその地位にあると言えるだろう。Intelは大手OEMやODMとの強固な関係を基盤にデータセンター市場における優位性を築いてきた。そしてここ数週間、その関係を改めて強調してきた。一方、AMD自身もこれらの企業との関係構築に奔走している。業界は長年、価格抑制のための実質的な競争を切望してきた。Romeがその期待に応えることは疑いようがなく、もしアナリストの大多数が予想するほどの幅広い採用が実現すれば、データセンターのパラダイムそのものを変革する可能性がある。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。