16
AMD が Zen 5 の詳細を公開 — コンパクト コアは通常のコアより 25% 小さく、新しい SoC とチップ…
ASD
(画像提供:Tom's Hardware)

AMDは先日、Zen 5 Tech Dayを開催し、間もなく発売予定のRyzen 9000「Granite Ridge」とRyzen AI 300「Strix Point」プロセッサの詳細を世界に公開しました。多くの情報が発表されましたが、同社は今週、Zen 5のマイクロアーキテクチャとSoCレイアウトに関するさらに詳細な情報を発表しました。

AMDは、Zen 5cの「コンパクト」コアが標準のフルファットZen 5コアよりも約25%小型であること、そして2種類のコアが同一ダイ上に異なるキャッシュ容量を搭載していることを明らかにしました。これはAMDの設計としては初めてのことです。同社は他にも多くの興味深い技術的詳細を発表しており、以下でそれらについてご紹介します。

SoCとZen 5cのダイ面積は最大25%削減

AMD Zen 5 CCX

Zen5 コア コンプレックス (CCX) (画像提供: AMD)

AMDはZen 5アーキテクチャを開発し、Zen 5cコア向けによりコンパクトな実装にカスタマイズしました。この単一のアーキテクチャは、カスタマイズ可能な2種類のコアタイプで展開され、デスクトップ、モバイル、サーバー向けプロセッサに使用され、4nmプロセスノードと3nmプロセスノードの両方で使用されます。

AMDの「コンパクト」Zen 5cコアへのアプローチは、Intelのeコアへのアプローチとは本質的に異なります。IntelのEコアと同様に、AMDのZen 5cコアは、「標準」パフォーマンスコアよりもプロセッサダイ上の占有スペースが少なく、負荷の低いタスクには十分なパフォーマンスを発揮するように設計されており、消費電力を削減し、従来よりも平方ミリメートルあたりの演算処理能力を向上させています(詳細はこちら)。しかし、類似点はそれだけです。Intelとは異なり、AMDは同じマイクロアーキテクチャを採用し、より小型のコアでも同じ機能をサポートしています。

AMD のフルファット Zen 5 コアとコンパクト Zen 5c コアは、同じダイ上に両方のコア タイプを搭載した異種設計 (Strix Point など) または 1 つのコア タイプのみを使用する同種設計 (フルサイズ コアのみを搭載した Granite Ridge デスクトップ チップ、または小型のコンパクト コアのみを搭載した前世代の EPYC Bergamo サーバー チップなど) のいずれかで、複数のセグメントで使用できます。

Ryzen 9000 Granite Ridgeプロセッサはまさに予想通りの性能です。1つのCCD(コアチップレットダイ)に、8つのZen 5コアと32MBのL3キャッシュが搭載されています。CPUには1つまたは2つのCCDが搭載され、最新のSoCに搭載されている他の多くの機能を処理するIOD(入力出力ダイ)と組み合わせられます。

画像

1

1

AMD Ryzen 9000シリーズ
(画像提供:AMD)

Strix Point SOCは完全に独自のものです。コンパクトなコアは、スケールアウト性能を実現すると同時に、より最適な電力性能比を実現するように設計されています。その違いの一部は、AMDがこのコアタイプに異なるキャッシュ容量を使用していることに起因しています。

このダイには、以前のAMD Zen 2チップと同様に、2つのCCX(コアコンプレックス、つまり同一ダイ上にコアクラスターが配置された構造)が搭載されています。どちらのコアタイプもそれぞれ専用のL1キャッシュとL2キャッシュを備えていますが、24MBのL3キャッシュは、標準コア用に16MBスライス、Zen 5cコンパクトコア用に8MBスライスに分割されています。

AMDのZen 5cコアは、同一ダイ上にキャッシュ容量の異なる2種類のコアを搭載した初めての製品です。4つのフルサイズパフォーマンスコアは、低レイテンシでバースト性の高いワークロードに対応するために、それぞれ4MBのL3メモリを搭載しています。一方、8つのコンパクトコアは、低使用率で高常駐のワークロードに対応するために、それぞれわずか1MBのL3メモリを搭載しています。

L3キャッシュ容量の削減は、コンパクトコアの面積を節約するだけでなく、消費電力も大幅に削減します。つまり、コンパクトコアあたりの消費電力の大きいキャッシュ容量が大幅に削減されるのです。AMDは、パフォーマンスコアとその大容量L3キャッシュをパワーゲーティングしながら、マシン全体を可能な限りコンパクトコアで動作させたいと考えているため、スケジューリングメカニズムが意図したとおりに機能すれば、バッテリー駆動時間を大幅に向上させる可能性を秘めています。

非対称キャッシュ設計への移行は、AMDにとって新たなスケジューリングと管理上の課題をもたらします。これら2つのL3キャッシュは、AMDの旧Zen 2アーキテクチャに見られるCCX-CCXキャッシュコヒーレンス機構と同様に、データファブリックを介して相互に通信する必要があります。これにより、キャッシュ間転送のレイテンシが増加しますが、AMDによれば「メモリにアクセスする必要がある場合と同程度」とのことです。

そのため、AMD は Windows スケジューラ メカニズムを使用して、ワークロードを Zen 5 または 5c コアのいずれかに制限し、高レイテンシ転送の発生を減らします。バックグラウンド ワークロードは通常、5c コアに割り当てられます。

Intelは、Eコアへの作業スケジューリングを優先し、その後、より小さなコアの速度が十分でない場合は他のコアに割り当てます。一方、AMDはワークロードの割り当て先を特に決めていません。AMDは、優先度とQoSメカニズムに基づいてオペレーティングシステムがターゲットとするコアタイプを選択できるようにすることで、ワークロードに応じて最適なユーザーエクスペリエンスを実現します。AMDは独自のスレッドスケジューリングメカニズムを備えており、各コアのパフォーマンスと電力特性を列挙したテーブルと、様々な操作の重み付けをOSに提供することで、OSがスケジューリングを決定できるようにしています。

スライドにはEPYC SoCの内訳も記載されていますが、AMDは次世代Zen 5 EPYC CPUについて、CCDあたりのコア数を伏せるため、単に「N-Classic/Compact」コア数をCCDあたりにのみ記載しています。ただし、従来の表記が正しければ、デスクトップ製品と同じCCDあたりのコア数となるはずです。「X-MB L3」のリストも同様です。「将来」の箇条書きには、EPYC CCDの横に同種および異種のチップがリストされており、AMDがコアタイプが混在するZen 5 EPYCチップを複数提供する可能性があると解釈する人もいます。これは初めてのケースです。ただし、この箇条書きのリストは、横に記載されているEPYC CCDのみに関連するものではなく、機能の実証的なリストであることに注意してください。

画像

1

2

空自
(画像提供:AMD)

AMDは、Zen 5cコンパクトコアの根拠と目標についても詳しく説明しました。Intelのアプローチとは異なり、Zen 5のコアタイプはどちらもSMTと同じ命令セット(ISA)をサポートしているため、異なるコアタイプでIntelが直面しているスケジューリング上の懸念(Intelのコアタイプは同じISAをサポートしていない)を回避できます。

AMDのアプローチはIntelのアプローチとも異なり、マルチコアワークロードにおいてZen 5cコアのパフォーマンスを標準コアに可能な限り近づけることを優先しています。これにより、大きなコアが小さなコアのワークロード完了を待つ状況を防ぐことができます。これは、スレッド依存関係のあるマルチコアワークロードなどの状況では重要です。これは、Zenのリードアーキテクトであるマイク・クラーク氏が「スケジューリングの崖」と呼ぶ状況を回避します。これは、ワークロードをZen 5cコアにスケジュールするとパフォーマンスに大きな差が生じ、ユーザーエクスペリエンスに悪影響を与えるというものです。

最終的な目標は、2種類のコア間の差を可能な限り小さくすることです。そのため、AMDはZen 5cの設計目標を特定のダイ面積要件に基づいて設定するのではなく、より小型のコアに対して特定の電圧/周波数(V/F)曲線を目標としました。

他のプロセッサと同様に、Zen 5もコア数を増やすと、電力と熱の制限によりクロックレートが低下します。つまり、4つのパフォーマンスコアがアクティブな場合、プロセッサのクロックレートは1つのコアがアクティブな場合よりも低くなります。AMDは、負荷時の周波数を基準に、コンパクトコアのV/Fカーブのターゲットを決定し、2種類のコア間の速度差を一定に保ちました。

Zen 5cの周波数目標を引き下げたことで、AMDは設計をより少数の大きなブロックに分割し、それらをより近接して配置することが可能になり、消費電力削減のメリットがもたらされました。AMDは、標準コアがサポートする最高周波数に到達するために5cコアで不要になった高速リピーターとバッファ回路を削除しました。コアあたりのL3キャッシュ容量の減少と相まって、Zen 5cのダイ面積は標準コアと比較して大幅に削減されました。(この点については、クラーク氏へのインタビューで詳しく読むことができます。)

画像

1

2

AMD
(画像提供:AMD)

最終的に、AMDはZen 5cコアの面積を標準のZen 5コアと比較して約25%削減しました(クラーク氏によると、これは概算値です)。これは、EPYC Bergamoプロセッサに搭載されているZen 4cコアで達成された35%の削減よりも低い数値です(上のスライドを参照)。

クラーク氏によると、Zen 5コアは、異なるパフォーマンス目標を持つコンパクトコアのみ(ホモジニアス)設計ではさらに高密度化できる可能性があるとのことです(ちなみに、Bergamoはコンパクトコアのみを搭載しています)。しかし、今回の設計は、この特定のヘテロジニアス設計の目標を満たしています。そのため、他の製品では、さらに高密度なZen 5cコア設計が登場する可能性があります。

Zen 5cのコア面積が25%削減されたことは、間違いなく素晴らしい成果です。特にAMDがコア間のパフォーマンス差を低く抑えることができたのであればなおさらです。しかし、真相はテストでしか分かりません。また、AMDのウェブサイトにはZen 5cコアのクロック周波数が記載されていないようですが、詳細を調査中です。 

AMD ストリクスポイント SoC

AMD ストリクスポイント SoC

(画像提供:AMD)

AMDは上記のStrix Point SoCの内訳を公開しており、より詳細な情報を提供しています。最も興味深いのは、異なるコンピューティングユニット間のデータパス幅の違いです。これらのデータパスは、Infinity Fabricを介してメモリと通信します。

Zen 5とZen 5cのコアクラスターはどちらも独自の32B/サイクルポートを備えているため、CCX間のL3キャッシュ間転送には制限があります。一方、帯域幅を大量に消費するGPUには、32B/サイクルポートが4つ搭載されています。XDNAニューラルプロセッシングユニット(NPU)も、データファブリックへの独自の32B/サイクルインターフェースを1つ備えています。また、ビデオエンコード/デコードなどの固定機能アクセラレータブロックも標準装備されています。StrixはLPDDR5-7500とDDR5-5600メモリをサポートしています。

注目すべきは、AMDがPCIeレーンの割り当てを削減した点です。モバイルデバイスでは慣例となっているように、AMDは電力消費を抑えるため、前世代のPCIeインターフェース(この場合はPCIe 4.0)に戻しました。しかし、AMDは接続レーン数を20レーンから16レーンに削減しました。これは、追加の4レーンがほぼ常にセカンダリストレージに使用されていると判断したためです。しかし、AMDによると、このセグメントではそのような使用例は一般的ではない(接続率が低い)とのことです。そのため、AMDはレーン数の削減は許容できるトレードオフであり、ピン数の削減によってダイと基板面積(ダイとシステムボードへの接続数)を節約し、さらに消費電力を削減できると判断しました。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

AMD グラナイトリッジ SoC

AMD グラナイトリッジ SoC

(画像提供:AMD)

Ryzen 9000デスクトップチップに搭載されているGranite Ridge SoCは、前世代チップとレイアウトが似ており、それほど驚くようなものではありません。実際、このSoCはZen 4 Ryzen 7000チップと同じIODを使用しています。つまり、CPUはDDR5-5600メモリ、28レーンのPCIe 5.0、5つのUSBポート、そして統合型RDNA 2グラフィックエンジンからの4つのディスプレイストリームを同様にサポートします。

同じIODを使用することで、AMDの標準的な方針である「可能な限りスマートに再利用する」という方針を踏襲しています。RDNA 2エンジンはAMDの用途には十分であり、ディスプレイを点灯させるだけで、それ以上の用途はありません。また、AMDはパッケージサイズを従来と同じに保つことができるため、AM5プラットフォームのサポート継続が容易になります。iGPUには、Infinity Fabricへの32B/サイクルのデュアルポートが搭載されています。

IODは、1つまたは2つの8コアCCDとペアになっています。シングルCCDプロセッサには、ダイツーダイ(D2D)Infinity Fabric接続を介してIODと通信するための、32B/サイクルの読み書きポートが搭載されています。しかし、従来通り、デュアルCCDチップでは、高電力SERDESの消費電力を削減し、パッケージレイアウトを容易にするために、IOD間に16B/サイクルの書き込みと32B/サイクルの読み取り接続が備えられています。2つのダイで構成されるため、設計スペースがより制約されるため、インターフェースのサイズが重要になります。AMDは、実際のワークロードを特性評価した結果、一般的に読み取りと書き込みの比率が3対1であることが確認されたため、16B/サイクルの書き込み帯域幅の縮小によるパフォーマンスへの影響はほぼないとしています。

スワイプして水平にスクロールします

コードネームコアダイサイズトランジスタ数ノードトランジスタ密度
Ryzen 7000「デュランゴ」8 禅 471 mm^265億5 nm92.9 MTr/mm^2
Ryzen 9000「エルドラ」8 禅 570.6 mm^283億1500万N4P117.78 MTr/mm^2
ホークポイント18 禅 4178 mm^2?N4(?)? MTr/mm^2
ホークポイント22 ゼン 4 + 4 ゼン 4c138 mm^2?N4(?)? MTr/mm^2
ストリクスポイント4 ゼン 5 + 8 ゼン 5c232.5 mm^2?N4P? MTr/mm^2

Granite Ridge の「Eldora」CCD は、70.6mm2 のシリコンに 83 億 1,500 万個の TSMC N4P トランジスタを搭載しており、トランジスタ密度は 117.78 MTr/mm2 に相当します。これは、Zen 4 の Durango CCD と比べて 28% の密度増加です。

Strix Pointのダイ面積は232.5mm2で、前世代のHawk Pointの178mm2よりも大幅に大きくなっています。これは主に、両ダイが同じプロセスノードを使用しているにもかかわらず、Strixの方がコア数とキャッシュ容量が多いためです。また、Strixは統合GPUも大幅に強化され、RDNA 3.5コンピュートユニットを最大16基搭載しています。これは、Hawk/Phoenix PointのRDNA 3 CUが12基であるのに対し、Strixは最大16基です。AMDはStrixのトランジスタ数についてまだ公表していませんが、詳細を追ってお知らせします。Zen 5ダイの詳細な分析については、こちらをご覧ください。

画像

1

13

空自
(画像提供:AMD)

AMD の 2 回目の説明には、Zen 5 イベントで共有された元のスライドよりも多くの Zen 5 マイクロアーキテクチャに関する情報が含まれていましたが、私たちはすでに情報の大部分をカバーしました (その分析はここで読むことができます)。

AMDはZen 5アーキテクチャをコンピューティングの新たな基盤として位置づけており、同社が新しいバージョンをリリースしていく中で、広範囲にわたる影響を与えるいくつかの注目すべき変更点を備えています。これらの機能の多くは、Zen 4からの最も重要な変更点を解説した最初のスライドで概説されています。AMDはまた、コアの様々なコンポーネントについてより詳細なスライドを提供し、Zen 5でサポートされる新しいISA拡張機能についても概説しました。

時間的な制約があるため、新しいマイクロアーキテクチャの詳細については、現在公開中のレビューで詳しくお伝えします。特に2枚目のスライド(Zen 5コアの複雑な速度とフィード)に注目してください。このスライドには、異なるキャッシュレベル間の接続に関する新しい情報が記載されています。また、Zen 5の平均予測ミスレイテンシが1サイクル増加していることもわかりました(参考までに、Zen 4の予測ミスレイテンシは12~18サイクルの範囲で、13サイクルが一般的なレイテンシでした)。

航空自衛隊

(画像提供:AMD)

最後に、Zen 5搭載のRyzen 9000「Granite Ridge」とRyzen AI 300「Strix Point」チップが7月31日に発売されます。例年通りであれば、レビューは発売当日か前日に投稿される予定ですが、ノートパソコンの在庫状況はデスクトップCPUほど予測が難しい可能性があります。いつものベンチマークテストを含む完全なレビューをお楽しみに。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。