
AMD のコーポレート フェロー シリコン設計エンジニアである Mike Clark 氏に、同社の Ryzen 9000 および Ryzen AI 300 プロセッサに搭載される Zen 5 マイクロアーキテクチャが発表された最近の Tech Day でインタビューしました。
「Zenの父」、あるいはAMD社員によっては「Zen Daddy」として知られるクラーク氏は、31年間AMDのCPUアーキテクチャの開発に携わってきました。彼はZenの第一世代のリードアーキテクトを務め、2016年、会社が倒産の危機に瀕していた時期にHot Chipsでその第一世代を発表しました。
AMDは過去7年間で5世代のZenを発表し、それぞれがIPC(命令/クロック)を2桁向上させてきました。クラーク氏は5世代全てを通してZenの開発を指揮し、現在6世代目の開発も進行中です。これによりAMDは苦戦を強いられていたチップメーカーから、株式市場の寵児へと変貌を遂げ、今ではIntelからかなりの市場シェアを奪還しました。現在、AMDの時価総額は長年のライバルであるIntelのほぼ2倍に達しており、クラーク氏が推進したアーキテクチャこそが、この驚異的な復活の原動力となっています。
AMDのZen 5アーキテクチャは、4nmプロセスノードと3nmプロセスノードの両方にまたがり、デスクトップPCやモバイルPCからデータセンター向けEPYCプロセッサに至るまで、AMDの次世代CPU製品スタック全体を支えます。これらすべての市場に対応するために、統一された基盤アーキテクチャを設計することは、驚異的なエンジニアリングの偉業です。AMDは今月末に4nm Zen 5チップを発売する予定ですが、3nm版のリリース時期についてはまだ発表していません。クラーク氏は、4nmプロセスと3nmプロセスの両方でZen 5を同時に設計することの難しさについて詳しく説明し、2つのバージョンは基本的に「互いに重なり合って」登場すると述べました。
AMDは、IntelのEコアと同様にバックグラウンドタスク向けに設計された小型コアであるコンパクトなZen「c」コアを採用し、ノートPC向けプロセッサのコスト削減とパフォーマンス向上に取り組んできました。しかし、競合他社とは異なり、AMDはまだこれらのコアをメインストリームおよびハイエンドデスクトップ向けラインナップに導入していません。Zen 5cはAMDのコンパクトコアの2番目のバージョンですが、現在のところメインストリームのRyzen 9000ファミリーへの搭載は計画されていません。しかし、クラーク氏は、コンパクトコアは将来のRyzenデスクトップチップに搭載されると考えていると述べ、同社が独自の実装に使用している技術についても詳しく説明しました。
Intelは高性能AVX-512命令へのハードウェアアクセラレーションサポートの導入を断念したことで知られていますが、AMDのZen 5はRyzenファミリーで初めて完全なAVX-512アクセラレーションを実現しました。IntelはプロセッサがAVX-512ワークロードを実行する際にクロック速度を低下させる必要がありますが、AMDはこれらの強力な命令が標準的な整数演算と同じクロック速度で実行されると述べています。クラーク氏は、同社がこの偉業をどのように達成したかについても詳しく説明し、Zen 5cコアも完全なAVX-512を実行できると述べました。
以下はクラーク氏との会話の要点を軽く編集した書き起こしです。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
Zen 5c の「コンパクト コア」はハイエンド デスクトップ PC チップに搭載されるでしょうか?
AMDのコンパクトなZen 5cコアへのアプローチは、Intelのeコアへのアプローチとは本質的に異なります。IntelのEコアと同様に、AMDのZen 5cコアは、「標準」パフォーマンスコアよりもプロセッサダイ上の占有スペースが少なく、負荷の低いタスクには十分なパフォーマンスを発揮するように設計されており、消費電力を削減し、従来よりも平方ミリメートルあたりの演算処理能力を向上させています(詳細はこちら)。しかし、類似点はそれだけです。Intelとは異なり、AMDは同じマイクロアーキテクチャを採用し、より小型のコアでも同じ機能をサポートしています。
Zen 5では、AMDは小型のコンパクトコアを大型コアとほぼ同等のパフォーマンスを発揮するように設計し、スレッド化されたワークロード処理中に高速なZen 5コアがコンパクトコアの処理を待機する必要がないようにしています。クラーク氏は、AMDのコンパクトコアが最終的に同社のデスクトッププロセッサに搭載されると予想しており、AMDはスレッド配置技術を用いて特定のワークロードを小型コアに割り当てていると説明し、Zen 5cを開発するために標準コアを縮小した経緯についても詳しく説明しました。
Tom's Hardware (TH): Zen 5cのコンパクトコアは、電力制限のある環境(モバイル)でしか使えないと思われますか? 電力を気にする必要のないデスクトップPCにも搭載される可能性はありますか?
マイク・クラーク(MC): [...] 先ほどお話しした方法でコンパクトコアを製造し続ければ(おそらくそうなるでしょう。なぜ少し理論的なことを言ったのか分かりませんが)、難しいのは、搭載するコアの数に応じてバランスが取れるように、適切な周波数ポイントを確実に実現することです。しかし、もしそれが本当に得意なら、デスクトップにコンパクトコアを搭載しない理由はないでしょう。
顧客にとって、特定のコア数で同じパフォーマンスを提供し、面積が小さいためコストが安くなるか、コンパクトコアのおかげでデスクトップにさらに多くのコアを搭載できるか、という問題があります。そもそも、それほど多くのコアを搭載するとTDPの制約を受けるため、パフォーマンスコアを活用できませんでした。ですから、コンパクトコアを使った方がよかったのかもしれません。Windowsでの経験が増え、スケジューリングが機能することが分かれば、デスクトップでコンパクトコアを使用してコア数を増やし、コスト効率を高めるようになると思います。なぜなら、すべてを5.7GHzの周波数で実行できないため、パフォーマンスコア用の領域が無駄になっているからです。
TH:異機種混合設計でコンパクト コアを使用する場合、何らかのスレッド配置を使用してそれらのコアにワークロードをスケジュールしますか?
MC:コアを魔法のように移動させたり、ソフトウェアに対して透過的に操作できるハードウェアは存在しません。そのため、ソフトウェアを活用しています。各コアの性能を示すテーブルを作成し、そのテーブルを動的に更新することで、状況に応じてコアにフィードバックを提供することで、軽スレッドのワークロードにおいてコアをどこに配置すべきかを管理できるようにしています。[...] クラシックコアとスループットコア(Zen 5c)はどちらも同じレベルのパフォーマンスを維持し、スループットコアの計算能力が不足しても負担がかからないと期待しています。アルゴリズムは最も低速なコアのオーダーで実行されるため、これらのスループットコアは非常に高い周波数で動作し、真のマルチスレッドワークロードを処理できます。しかし、マルチプロセッシングを行う場合は、配置場所を慎重に検討する必要があります。
ぜひテストしてみてください。私はまだ見ていませんが、Teams を実行すると、コンパクトコア上で動作しているのが確認できます。ブラウザを開くと、バースト性が必要なため、パフォーマンスコアに切り替わります。そして、作業が終わると、このバースト性は消えます。Teams はコンパクトコア上で動作し続けるので、両方のメリットを享受できます。
TH:標準コアを縮小し、パフォーマンス能力をほぼ一致させながらスレッド依存性の問題が発生しないようにするには、どのように実現するのでしょうか? ライブラリの密度を高め、間隔を狭めるなどでしょうか?
MC:どちらかというと後者ですね。ライブラリは同じです。[..] 論理ブロックのようなものがあり、サブブロックもありますが、特定のクリティカルスピードパッドで高周波数を実現するには、設計を小さな部分に分割し、それに合わせてカスタム作業を行う必要があります。しかし、最終的には長方形になり、各要素は必要以上に離れており、空白がありますが、それはすべて高周波数を駆動するためのものです。しかし、そこで「よし、最大周波数を下げよう」とします。すると、ブロックを組み合わせることができるので、カスタム作業はそれほど必要なくなり、設計を縮小できます。スペースをより有効に活用しているので、自然と小さくなっています。以前はリピーターなどの追加ロジックやバッファリングがありましたが、それらはすべて削除されました。
目標とするコアをどれだけ小さくできるか、そしてそこから最大限の面積と出力を引き出せるかは驚くべきことです。これは、高周波数を得るために私たちが行わなければならなかったことによるものです。「なぜもっと小さなブロックをうまく選ばないのか?」と言われるかもしれませんが、私たちは長年そうしてきました。小さなブロックを完璧に仕上げることはできません。これは設計の性質上仕方のないことです。
Zen 5がAVX-512ワークロードを実行しながら通常の周波数で動作する仕組み
TH: Zen 5ではAVX-512命令が標準命令と同じクロックで実行されるとおっしゃっていましたが、Intelは長年この問題に取り組んでおり、AVX命令を消費電力に応じて異なるクラスに分割するなど、様々な対策を講じてきました。Zen 5では、AVX-512のクロックを高く維持するために何か目立った調整が行われましたか?成功の秘訣は何ですか?
MC:我々の成功の秘訣と言えるのは、マシンの他の部分とよりバランスの取れたタイミングでAVX-512を導入しようと試みたことです。そうすることで、AVX-512が単発的にしか採用されないように見えず、単発的に採用されることで様々な問題が発生するのを防ぐことができます。AVX-512は明らかに消費電力が増加しますが、AVX-256も同様です。しかし、AVX-512は共に進化していく方が望ましいのです。例えば、AVX-512をZen 2に搭載しようとしたとしましょう。当時、AVX-128からAVX-256へと進化したばかりでした。私はバランス感覚を大切にしています。それがZenであり、まさに完璧なバランスなのです。
私たちも学びました。整数側でも、スケジューラは多くの電力を消費します。ですから、どちらの側でも、そしてIntelも学んだことだと思いますが、ホットスポットがどこに発生するかを把握した上でフロアプランを設計することが重要なのです。そして、全てがうまくいくことはあり得ないことも理解した上で、あらゆる場所にセンサーを設置します。特に懸念される場所にはセンサーを設置します。私たちは、これらのセンサーをうまく機能させ、ファームウェアを使って動的に管理することで、より適切な対応を可能にしてきました。複数のコアが使用しているため、TDPの制約が厳しくなり、スロットリングをしなければならない場合もあります。しかし、これは整数側でも同じです。
TH:ということは、周波数は整数とほぼ一致するということでしょうか?
MC:とにかく、それを察知して適切に対応し、「ああ、この人(コア)がやったから、みんな(周波数)をダウンさせたんだ」なんてことにはならず、それほど深刻な状況にはならないようにします。つまり、これは私たちが理解を深め、AVX-512だけでなく、設計全体に適用できる管理上の問題なのです。
TH: AVX-512 を実行するコンパクト コアについて考えると、標準のフル データ パス、フル 512 ビット幅で実行するのか、それともダブル ポンプの AVX-256 を実行するのか、どちらでしょうか?
MC:どちらでも構いません。本日Strix Pointでリリースする製品では、パフォーマンスコアとコンパクトコアの両方にAVXカットダウン[AVX-256]を採用しています。これは、異機種混在環境であること、そして面積が限られているモバイルプラットフォーム向けであるためです。
実現できるという意見もあるかもしれませんが、ソフトウェアでそのような処理を強いるのは避けたいと考えています。パフォーマンスコアを削減することで、その領域は改善されますが、ある程度はスループットコアを増やすことも可能です。しかし、他の市場向けにコンパクトなコアを開発することも可能です。512ビットのフルデータパスを備えた市場においても、その効果を実感いただけると思います。これはAIやベクターワークロードに最適です。より高密度な設計であっても、必要な時に優れたベクターパフォーマンスが求められるということではありません。
Zen 5の設計における最大の課題
TH: Zen 5 の開発で直面した最大の課題は何でしたか?
MC:実際には、2つの技術(4nmと3nmの両方のプロセス技術向けにZen 5を設計)を扱っていました。特に、前世代で使用されていた技術です。そして、非常に多くの変更を行おうとしており、そのため、私たちがどれだけ賢くなっても、4nmでは3nmよりも多くの電力を消費するという避けられない現実に直面しました。
しかし、ロードマップには柔軟性が必要であり、それは理にかなっています。しかし、2つの技術と機能を同時に制御するのは非常に困難でした。3nmでは優れた機能だったものが、4nmではそれほど優れた機能ではなくなるのは、効率の低いトランジスタの電力消費とそれがフロアプランに与える影響が大きいからです。通常、まずアーキテクチャを構築し、次に別のアーキテクチャを移植します。そうすることで、2つの技術を考慮したフロアプランを策定する時間が十分にあります。[…] 本当に大変でした。しかし、だからこそZen 6には大きな改善の余地があるのです。
3nmと4nmを近いうちに提供する予定です。基本的に、これらは互いに重なり合っています。そのため、設計チームはそれぞれ別々に開発を進めていますが、コミュニケーションを取り、協力し合おうと努めています。これはこれまでと変わりません。私たちは、自分たちの健全な精神を保つために、シンプルさを維持するよう努めてきました。検証し、構築しなければならない設計が山積みで、設計間の差異が大きければ大きいほど、事態は制御不能になり、複雑さが増していきます。
それは挑戦でしたが、私たちにとって大きな喜びです。先ほども言ったように、やり遂げたことで多くのことを学んだからです。次回はもっとうまくできるはずです。常に学び、常に新しい挑戦と革新に挑戦し続ける、それがこの仕事の醍醐味です。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。