59
インテル、144コアのSierra Forest、Granite Rapidsアーキテクチャ、Xeonロードマップの詳細を発表
インテル
(画像提供:Intel)

Hot Chips 2023において、Intelは将来の144コアXeon Sierra ForestプロセッサとGranite Rapidsプロセッサの詳細な情報を初めて公開しました。前者はIntelの最新Sierra Glen Eコアを搭載し、後者は最新Redwood Cove Pコアを採用しています。次世代Xeonチップは、来年前半に発売される予定です。このアーキテクチャは、「Intel 7」プロセスで製造されたデュアルI/Oチップレットと、「Intel 3」プロセスで製造された様々な構成のコンピューティングコアを組み合わせた、新しいタイルベースアーキテクチャを採用しています。この設計により、Intelは同じ基本構成を維持しながら、異なる種類のコアをベースにした複数の製品を開発することが可能になります。

Sierra ForestとGranite Rapidsは、ソケット、メモリ、ファームウェア、I/Oの互換性を備え、Birch Streamプラットフォームに統合されているため、ハードウェア検証プロセスを効率化できます。また、同じソフトウェアスタックとの相互運用性も備えているため、お客様はニーズに合わせてどちらのチップもご利用いただけます。

Intelは、次世代Xeon Sierra ForestのE-Coreベースの設計は、第4世代Xeonチップと比較して、ラック密度が最大2.5倍、ワット当たり性能が最大2.4倍向上すると主張しています。一方、P-Core搭載のGranite Rapidsは、メモリ帯域幅が最大2.8倍向上したこともあって、AI混合ワークロードにおいて2~3倍のパフォーマンスを発揮します。早速見ていきましょう。 

シエラフォレストとグラナイトラピッズの建築

画像

1

7

インテル
(画像提供:Intel)

Intel は当初、第 4 世代 Xeon Sapphire Rapids プロセッサでタイルベース (チップレット風) のアーキテクチャに移行しましたが、Sierra Forest と Granite Rapids により、このアプローチに新たなレベルの分散化がもたらされました。

IntelはSapphire Rapidsで4ダイ設計を採用し、各ダイにはメモリやPCIeコントローラなどの重要なI/O機能の一部が搭載されていました。新プロセッサでは、一部のI/O機能をIntel 7プロセスでエッチングされた2つの独立したHSIOチップレットに完全に分離することで、I/Oのコスト、消費電力、パフォーマンスの最適なバランスを実現しています。一方、CPUコアとメモリコントローラはそれぞれ専用のコンピューティングチップレットに搭載されています。

2 つの HSIO ダイはチップ パッケージの上部と下部に配置され、中央には 1 ~ 3 個のコンピューティング ダイが配置されています。これらはすべて、基板内で融合され、ブリッジの両端でダイ間相互接続に接続された不特定多数の EMIB (Embedded Multi-Die Interconnect Bridge) 相互接続によって結び付けられています。

コンピューティングタイルは、Granite RapidsではRedwood Cove Pコア(パフォーマンスコア)、Sierra ForestではSierra Glen Eコアのいずれかを採用します。Intelは、両方のタイプのコアを同一パッケージで搭載したモデルを提供する予定はありません。コンピューティングチップレットは、EUV対応のIntel 3プロセスで製造され、Intel 4プロセスには含まれていなかった高密度ライブラリを備え、1チップあたり48個のPコアを搭載しています。Intelは当初、Granite Rapids Xeonの発売を「Intel 4」から「Intel 3」への設計変更に伴い2023年から2024年に延期しましたが、チップは2024年前半の発売に向けて予定通り進められています。

Granite Rapidsは、従来のXeonデータセンタープロセッサと言えるでしょう。これらのモデルは、Intel最速アーキテクチャの性能をフルに発揮できるPコアのみを搭載しています。各Pコアは2MBのL2キャッシュと4MBのL3キャッシュを備えています。IntelはGranite Rapidsのコア数をまだ明らかにしていませんが、このプラットフォームは1台のサーバーで1~8個のソケットをサポートすることを明らかにしています。

一方、Sierra ForestのE-core(Efficiency Core)ラインナップは、IntelのAlderやRaptor Lakeチップと同様に、小型のEfficiency Coreのみを搭載したチップで構成されており、データセンターで普及が進むArmプロセッサとの競合に適しています。E-coreは、4MBのL2キャッシュスライスと3MBのL3キャッシュを共有する2コアまたは4コアのクラスターに構成されています。E-Core搭載プロセッサは最大144コアを搭載し、電力効率、面積効率、パフォーマンス密度を最大限に高めるよう最適化されています。Sierra Forestはシングルソケットおよびデュアルソケットシステムに搭載可能で、TDPは「最低」200Wです。

コアの種類に関わらず、各コンピュートダイにはコア、L2キャッシュ、L3キャッシュ、ファブリック、そしてキャッシュホームエージェント(CHA)が搭載されています。また、ダイの両端にはDDR5-6400メモリコントローラが搭載されており、標準DDRメモリ、または標準DIMMよりも30~40%高いメモリ帯域幅を提供する新しいMCRメモリを最大12チャネル(1DPCまたは2DPC)までサポートします。

上記の通り、コンピューティングチップレットはモデルによって異なるサイズで提供され、シングルコンピューティングダイ製品にはより大きなコンピューティングクラスターが搭載されます。Intelはコンピューティングチップレットごとにメモリチャネル数も変更します。この例では、シングルコンピューティングチップレット製品には3つのメモリコントローラーが搭載されていますが、2つ以上のコンピューティングチップレットを搭載した設計では、それぞれ2つのメモリコントローラーが搭載されています。Intelがメモリコントローラーをコンピューティングチップレットに緊密に統合するという決定は、AMDのEPYC設計と比較して、一部のワークロードにおいて優れたメモリパフォーマンスをもたらすはずです。AMDのEPYC設計では、すべてのメモリコントローラーが1つの中央I/Oダイに搭載されているため、レイテンシと競合ポイントが増加します。

コンピューティングダイは、Intelが「論理モノリシックメッシュ」と呼ぶ構造で、他のすべてのコアとL3キャッシュを共有しますが、特定のワークロードのレイテンシを最適化するために、サブNUMAクラスターに分割することもできます。メッシュはL3キャッシュスライスを統合された共有キャッシュにまと​​め、総容量は0.5ギガバイトを超え、Sapphire Rapidsの約5倍に相当します。各ダイ境界は、ダイ間で1テラバイト/秒を超える帯域幅をサポートします。

2つのHSIOダイを組み合わせることで、最大136レーンのPCIe 5.0/CXL 2.0(タイプ1、2、3デバイス)、最大6つのUPIリンク(144レーン)、そしてSapphire Rapidsのアクセラレーションエンジンと同様の圧縮、暗号化、データストリーミングアクセラレータをサポートします。各HSIOダイには、コンピューティングチップレットを管理する電源制御回路も搭載されていますが、各コンピューティングチップレットには、必要に応じて独立して動作できる独自の電源制御機能も備わっています。Intelはチップセット(PCH)の必要性を廃止し、AMDのEPYCプロセッサと同様に、プロセッサをセルフブートできるようにしました。

Intel Sierra Glen E-Core マイクロアーキテクチャ

画像

1

7

インテル
(画像提供:Intel)

Sierra Glenマイクロアーキテクチャは、スケールアウト、クラウドネイティブ、コンテナ化環境などのスカラースループットワークロードにおいて最高の効率性を発揮するように最適化されています。このアーキテクチャは2コアまたは4コアのクラスターに対応しており、IntelはコアあたりのL2キャッシュ容量とコアあたりのパフォーマンス(2コアモジュールではより高い電力供給による)を高めたモデルを提供できます。各コアクラスターは同一のクロックおよび電圧ドメイン上に存在します。Eコアクラスターは、4MBのL2キャッシュスライスと3MBの共有L3キャッシュを共有します。

以前の世代と同様に、各Eコアはシングルスレッドです。IntelはL1キャッシュを64KBに倍増し、6ワイドのデコードエンジン(レイテンシと消費電力を改善するために3ワイドを2つ搭載)、5ワイドのアロケーション、8ワイドのリタイアメントを採用しています。Sierra GlenコアはAMXまたはAVX-512をサポートしておらず、代わりにAVX10を使用しますが、IntelはBF16、FP16、AVX-IFMA、AVX-DOT-PROD-INT8のサポートを追加しました。  

Intel Redwood Cove P-Core マイクロアーキテクチャ

画像

1

7

インテル
(画像提供:Intel)

Pコア向けRedwood Coveアーキテクチャは、FP16アクセラレーションを備えたAMXをサポートするようになりました。これはAI推論ワークロードのパフォーマンスを大幅に向上させる重要な追加機能です。Intelはまた、コード量の多いデータセンターのワークロードへの対応を強化するため、L1命令キャッシュ容量を64KBに倍増しました。Redwood Coveは、ソフトウェア最適化されたプリフェッチ、強化された分岐予測エンジン、およびミスリカバリ機能も採用しています。Intelはまた、浮動小数点演算を4サイクルおよび5サイクルから3サイクルに移行することで、IPC(Input Processing Unit)の向上を実現し、浮動小数点演算のパフォーマンスを向上させました。

Intel Xeon ロードマップ

画像

1

4

インテル
(画像提供:Intel)

インテルにとって少し朗報なのは、同社のデータセンターロードマップが順調に進んでいることです。Sierra Forestは2024年前半に市場投入され、Granite Rapidsもその後まもなく登場する予定です。

スワイプして水平にスクロールします

行0 - セル0202320242025
Intel Pコアエメラルドラピッズ - インテル 7 | サファイアラピッズ HBMグラナイト・ラピッズ - インテル 3行1 - セル3
AMD Pコア5nm ジェノア-Xトリノ - 禅5
Intel Eコア1H - シエラフォレスト - インテル 3クリアウォーターフォレスト - インテル 18A
AMD Eコア1H - ベルガモ - 5nm - 128コア

ここでは、IntelのロードマップとAMDのデータセンターロードマップを比較しています。現在、高性能CPUをめぐる争いは、昨年発売されたAMDのEPYC Genoaと、今年初めに発売されたIntelのSapphire Rapidsの間で熾烈な戦いを繰り広げています。Intelは、コア数の増加とクロック周波数の高速化を実現するEmerald Rapidsリフレッシュ世代を今年第4四半期にリリースする予定で、HBM(Hyper-Brains Modeling)を搭載したXeon Max CPUも既にリリースしています。AMDは最近、5nm Genoa-X製品をリリースしました。来年には、Intelの次世代Granite RapidsがAMDのTurinと激突することになります。

効率性という点では、AMDのBergamoは、AMDの高密度Zen 4cコアを活用することで、Sierra Forestと非常によく似たコア重視のアプローチを採用しています。Bergamoはすでに市場に投入されていますが、IntelのSierra Forrestは2024年前半まで登場しません。AMDの第5世代EPYC Turinチップは2024年末までに発売される予定ですが、同社は第2世代Zen 4cモデルの詳細をまだ発表していません。Intelは現在、第2世代Eコアを搭載したClearwater Forestを2025年のロードマップに載せています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。