Intel、128 コアの Granite Rapids Xeon 6900P シリーズを発表 — AMD EPYC のコア数に匹敵…

（画像提供：Intel）

Intelは本日、高性能Xen 6「Granite Rapids」6900Pシリーズモデルを予定通り発売すると発表しました。72コアから128コアまでの5つの新モデルは、2017年以来初めてAMDの既存EPYCモデルのコア数を上回り、まもなく発売されるAMDのZen 5 Turinプロセッサのコア数にも匹敵します。Intelによると、数々の機能強化の結果、6900PシリーズはOpenFOAM HPCワークロードにおいて、AMDの競合製品である96コアのGenoaフラッグシップモデルの最大2.1倍の性能、ResNet50におけるAI推論性能は最大5.5倍を実現します。

Intel の主張は AMD の現世代モデルに対しては印象的ですが、AMD は最大 128 個のパフォーマンスコアを搭載した 3nm EPYC Turin の反撃を来月予定しており、2024 年の残り期間から 2025 年にかけて、データセンターソケットをめぐる激しい戦いの舞台が整います。

画像

の

インテルは先週、オレゴン州ポートランドで開催された Enterprise Tech Tour イベントで新しい Xeon 6 プロセッサーを発表し、また極めて重要な次世代 Clearwater Forest を初めて公開しました。

新たなフラッグシップXeon 6データセンタープロセッサは、新しいCPUコアマイクロアーキテクチャ、Intel 3プロセスノード、最大504MBのL3キャッシュ、12個のメモリチャネル、そして最大8800 MT/sの速度を実現するMRDIMMメモリ技術を搭載しています。Intelによると、これらすべてが世代を超えたパフォーマンスと電力効率の向上に貢献しています。Intelはこれらの主張を裏付ける多数のベンチマーク結果を公開しており、それらについても後ほど詳しく説明します。

Xeon 6 モデルとプラットフォーム

画像

の

Intelは、Xeon 6「Granite Rapids」ファミリーを複数のスイムレーンに分割しました。本日発表されるGranite Rapids 6900Pラインナップは、レイテンシに敏感なワークロードや、高いシングルコア性能を重視する環境向けに、全パフォーマンスコア（Pコア）を採用しており、HPC、AI、仮想化環境、そして一般的なワークロードに最適です。

6900Pの5つのモデルは、コア数が72から128までで、TDPは前例のない500Wに達します（AMDのTurinも同程度のTDPになると予想されています）。Intelの新モデルは、L3キャッシュも最大504MBと驚異的な容量で、これもAMDの現世代Genoaモデルを上回っています。

スワイプして水平にスクロールします

IntelおよびAMDパフォーマンスコアプロセッサ
モデル	価格	コア/スレッド	ベース/ブースト（GHz）	TDP	L3キャッシュ（MB）	cTDP（W）
Xeon 6980P (GNR)	＄？	128 / 256	2.0 / 3.9	500W	504	-
Xeon 6979P (GNR)	＄？	120 / 240	2.1 / 3.9	500W	504	-
EPYC ジェノバ 9654	11,805ドル	96 / 192	2.4 / 3.7	360W	384	320～400
Xeon 6972P (GNR)	＄？	96 / 192	2.4 / 3.9	500W	480	-
EPYC ジェノバ 9634	10,304ドル	84 / 168	2.25 / 3.7	290W	384	240～300
Xeon 6960P (GNR)	＄？	72 / 144	2.7 / 3.9	500W	432	-
インテル Xeon 8592+ (EMR)	11,600ドル	64 / 128	1.9 / 3.9	350W	320	-
EPYC ジェノバ 9554	9,087ドル	64 / 128	3.1 / 3.75	360W	256	320～400

Intelは、より汎用性の高い86コア以下のPコアXeon 6モデルを2025年第1四半期に発売する予定です（詳細は後述）。もちろん、6900P SKUリストには「ロードマップ上」のモデルのみが含まれていますが、Intelはパートナーと協力して、ニーズに基づいたカスタムチップ設計も提供しています（最近の例としてAWSが挙げられます）。Intelは以前、カスタムモデルがXeonの売上の最大50%を占めていると述べていましたが、現在の割合は不明です。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Intelは今年初めにXeon 6「Sierra Forest」6700Eシリーズモデルを発売しました。これらのプロセッサは、ワットあたりの性能を重視する密度最適化環境向けに、最大144個の効率コア（Eコア）を搭載しています。Intelの6900Eモデルは、最大288個のシングルスレッド効率コアを搭載し、AMDの密度最適化Zen 5c Turinモデルのコア数を192個上回るコア数となります。ただし、Turinは同時マルチスレッド（SMT）をサポートしているため、これらのチップは最大384スレッドに対応しています。実際のベンチマークでその違いがどのように現れるかは、今後の動向を見守る必要があります。

Granite RapidsプロセッサはどちらもBirch Streamプラットフォームに統合されますが、Intelはこのプラットフォームを2つの異なるブランチに分割しています。Xeon 6700 E/Pシリーズは、標準SPサーバープラットフォームに搭載され、最大86個のPコアまたは144個のEコア、CPUあたり最大350W、8つのメモリチャネル、サーバーあたり最大8つのソケットをサポートします。

6900 E/Pシリーズモデルには、最大128個のPコアまたは288個のEコア、CPUあたり最大500W、12個のメモリチャネル、サーバーあたり2個のソケットをサポートするAP（Advanced Performance）サーバープラットフォームが必要です。Cascade Lake世代でデビューしたIntelの初期のAPプラットフォームは、やや特異な印象でしたが、利用可能なシステム設計の数が限られていたため、あまり普及しませんでした。Intelの幹部によると、現在のより高いパフォーマンス密度へのニーズを考えると、APシステムの需要ははるかに堅調であり、より多くのOEMがAPプラットフォームを市場に投入するでしょう。

18A プロセスを採用した将来の Clearwater Forest チップも Birch Stream プラットフォームでサポートされ、顧客と OEM に前方互換性を提供します。

Xeon 6900P Granite Rapids アーキテクチャ

画像

の

Granite Rapids のアーキテクチャについてはこれまで何度も取り上げてきましたが、ここでは簡単に概要を説明します。

Intelの6700Pシリーズは、3つのコンピュートダイ（UCC指定子）を搭載した設計で構成されています。これらのダイはIntel 3プロセスノードで製造され、Redwood Coveマイクロアーキテクチャを採用したCPUコア、キャッシュ、インターコネクトメッシュ、メモリコントローラを内蔵しています。Intelは各ダイに搭載される物理CPUコアの数を公表していませんが、欠陥の影響を軽減し、歩留まりを向上させるために、各ダイには少なくとも1つの物理CPUコアが追加されていると推測できます。

各コンピュートダイには4つのメモリコントローラが接続されており、ダイ間アクセスでレイテンシのペナルティが発生する可能性があります。Intelは、すべてのダイを1つのプールとしてアクセスできる標準のHEXモードと、メモリとL3キャッシュへのアクセスを各ローカルコンピュートダイに制限することでレイテンシの影響を回避するSNC3モードの両方を提供しています。これは、前世代モデルの従来のSub-Numa Clustering（SNC）モードに似ています。これらのモードは、今後のレビューでテストする予定です。

各チップには、スペックに関わらず2つのI/Oダイが搭載されており、モデル間でI/O機能を統一しています。I/OダイはIntel 7プロセスノードで製造され、PCIe、UPI、CXLコントローラーとI/Oファブリックを内蔵しています。

Intel は本日、トリプルコンピュートダイの UCC モデルをリリースしますが、コア数/ダイ数が少ない XCC、HCC、LCC モデルは 2025 年第 1 四半期に登場します。

I/Oダイには、QAT、DLB、DSA、IAAアクセラレータも内蔵されており、圧縮、暗号化、データ移動、データ分析ワークロードのパフォーマンスを向上させます。これらの機能は通常、外部I/Oを必要としますが、これらの機能に低消費電力のIntel 7トランジスタを使用することで、より高価なIntel 3トランジスタをコンピューティング機能に活用できます。

残念ながら、IntelのDSAおよびIAAアクセラレータブロックには脆弱性があり、VMでの使用は安全ではありませんが、信頼できるソフトウェア（ホストリング0）では使用できます。アクセラレータが未使用の場合、この脆弱性による問題は発生しません。Phoronixによると、これはハードウェアの問題であり、ソフトウェアパッチでは解決できないとのことです。DSAおよびIAAの問題は、Diamond RapidsおよびGranite Rapids Dプロセッサが登場するまで、シリコン上で完全に解決されません。

前世代のEmerald Rapidsで見られたように、Intelはチップの負荷が低い場合の電力効率の向上に引き続き注力しています。これは、ほとんどのサーバーが通常30%から50%の使用率で動作し、現代の環境ではフル負荷のシナリオは比較的稀であるためです。

Intelは、新しいプロセスノードとマイクロアーキテクチャ、そしてアンコア/ファブリック周波数を含む複数の側面を動的に調整する洗練された電力管理最適化を組み合わせることで、40%の使用率でワットあたりの性能が最大1.9倍向上したと主張しています。ただし、効果は負荷レベルによって異なりますが、CPU使用率の負荷範囲全体において、前世代のXeon 8592+と比較して顕著な改善が見られます。

この機能は、以前の世代のXeonモデルでは「最適化された電力モード」設定に組み込まれていましたが、Intelによると、このモードのトレードオフは無視できる範囲にまで削減されました。そのため、IntelのXeon 6は現在、デフォルトでこのモードで動作します。

画像

の

APプラットフォームは12個のメモリチャネルを備えていますが、チャネルあたり1個のDIMM（1DPC）しかサポートしません。標準メモリでは最大DDR5-6400をサポートし、専用のMultiplexed Rank DIMM（MRDIMM）を使用することで、最大8800 MT/sまで速度が向上します。上記の最初のグラフの右側に示されているように、Intelは、特定のAIおよびHPCアプリケーションなど、メモリスループットが重要なワークロードにおいて、MRDIMM-8800は標準DDR5-6400メモリと比較して最大1.33倍のパフォーマンスを提供すると主張しています（ResNet50ベンチマークは、128コアモデルではなく、96コアのXeon 6を使用しています）。

MRDIMMはJEDEC規格のメモリ（当初はAMDが提唱）であり、複数のメモリバンクを同期させて動作させることで、標準的なDIMMを超えるパフォーマンスを実現します。このタイプのDIMMはメモリコントローラにおけるハードウェアベースのサポートを必要とし、Intelはこの新しいメモリ技術のサポートを市場に初めて投入したと主張しています。Intelによると、MRDIMMは標準的なDDR5と同等かそれより優れたレイテンシを実現しますが、当然ながらコストは高くなります。

MRDIMMは、パフォーマンスを向上させるMCRDIMM（元々はIntelが提唱）と混同しないでください。MCRDIMMは高速ですが、より複雑で、JEDECの公式承認を受けていません。Intelは前世代のXeonでMCRDIMMをサポートしていましたが、現在はMRDIMMに移行しています。

メモリ容量と帯域幅は、特にAIワークロードやインメモリデータベースにおいて、ますます喫緊の課題となっています。ComputeExpress Link (CXL) は、こうしたニーズへの対応を支援するために設計されています。Granite Rapids は、Type 1、Type 2、Type 3 の CXL 2.0 デバイスをサポートしており、AMD の将来のプラットフォームでも同様のサポートが期待できます。

インテルによると、顧客は経済的なDDR4メモリとCXLデバイスを組み合わせることでDDR5搭載サーバーのメモリ容量を増強し、コスト削減を図ることに最も関心を持っているとのことです（多くの顧客は、古いサーバーからDDR4メモリを再利用することを計画しています）。CXLコンソーシアムは数年前から、この種の組み合わせに対する業界の強い関心について私たちに伝えていましたが、インテルは現在、近い将来に量産レベルでの導入が見込まれると述べています。

Intelは、現在では廃止されたOptane DIMMで培った知見を基盤とした独自のフラットメモリモードにより、この市場で優位な立場にあると自負しています。この機能は、標準的な直接接続のDDR5メモリDIMMと、PCIeレーン経由で接続されたリモートのType 3 CXLメモリデバイス（DDR4）の両方から、1つの巨大なメモリプールを構築します。Intelのアプローチはハードウェア支援型で、メモリコントローラに組み込まれており、他のメモリ階層化ソリューションのようなソフトウェアベースではありません。そのため、CPUオーバーヘッドは発生せず、ホストオペレーティングシステムに関係なく動作します。

Intelは、DDR4とDDR5を組み合わせたメモリプールの利点を示すベンチマークを公開しました。メモリコントローラは、複数の変数に基づいてデータを適切なプールにインテリジェントに配置します。Intelによると、インメモリOLAPデータベースでは3%のパフォーマンス低下が見られ、プールの3分の1が低速なDDR4メモリで構成されているにもかかわらず、パフォーマンスの低下は最小限に抑えられています。

AIとHPCのベンチマーク

画像

の

上記はIntelのパフォーマンスに関する主張です。また、記事の最後には、ベンチマークに関する脚注をすべてまとめたアルバムをご用意しています。ベンダー提供のベンチマークではよくあることですが、これらの結果には注意が必要です。

Intelの比較の多くは第5世代Xeonモデルと比較されており、一般的なコンピューティング、データおよびWebサービス、HPC、AIワークロードの幅広い範囲において、パフォーマンスと電力効率の両方で大幅な向上を示しています。注目すべきは、これらのベンチマークでは、個々の比較において、異なるコア数とメモリタイプ（DDR5、MRDIMM）を使用していることです。全体として、Intelは第5世代Xeonの同等製品と比較して、コアあたり平均パフォーマンスが1.2倍、ワットあたりパフォーマンスが1.6倍、平均TCOが30%低いと主張しています。

当然のことながら、AMD EPYCとのベンチマークなしでは比較は完結しません。仮想化環境における優位性を強調するため、IntelはAMDの第4世代EPYC「Genoa」チップとのベンチマークも提供し、16 vCPUのVMワークロードにおけるResNet50ワークロードで最大2.88倍のパフォーマンスを発揮したほか、BERT-large、LAMMPS、NGINXなど、その他多数のワークロードでも優位性を示したと主張しています。

Intelは、AMDのBergamoチップとGenoaチップを、一般的なコンピューティング、データサービス、Webサービスの各分野において比較したベンチマーク結果も公開しました。また、標準DDR5とMRDIMMの両方を搭載したEPYC 9654と比較したHPCベンチマーク結果も公開しました。ただし、これらの結果を評価する際には、以下の脚注にご注意ください。

画像

の

AIは現在、データセンター支出の大部分を占めており、この傾向は今後も続くと予想されます。そのため、Intelは、既存のINT8とBfloat16に加えて、新たにFP16もサポートするAdvanced Matix Extensions（AMX）によって、AIワークロードにおける優位性を実証することに熱心です。

Intel は、AI CPU の優位性は、CPU 上での生の AI コンピューティング、AI GPU と組み合わせた場合の CPU パフォーマンスとサポート、そして AI トレーニングワークロードを強化するために CPU 上で実行されるベクトル化データベースのパフォーマンスという 3 つの形をとると考えています。

Intel は、96 コアの Xeon 6972P を EPYC Genoa 9654 および前世代の Xeon 8592+ と比較し、ローカルで実行される幅広い AI ワークロードにわたる利点を強調しました。

当然のことながら、ここでの真の競合はAMDが近日発売予定のTurinですが、Intelは比較対象としてこれらのチップを用意していません。その代わりに、IntelはAMDがComputex基調講演で公開したTurinのAIベンチマークを活用したスライドを公開しました。Intelはこのベンチマーク結果に満足せず、新型Xeon 6980Pと128コアのTurinを比較した新たなベンチマーク結果で反論を強め、要約処理で2.1倍、チャットボットで5.4倍、翻訳ワークロードで1.17倍の差をつけたと主張しました。当然のことながら、AMDが来月Turinを発売する際には反撃すると予想されます。

インテルはまた、自社のチップがNVIDIA GPUを搭載したシステムだけでなく、自社のGaudi 3を含むディスクリートアクセラレータを搭載したあらゆるサーバーと相性が良いことを目指しています。インテルは、NVIDIAのMGXシステムでの使用に適した複数のXeon 6モデルを保有しており、AI GPUを限界まで押し上げる優れたCPU性能の証左であるとしています。また、シングルスレッドCPU性能、I/O性能、メモリ帯域幅と容量の向上に加え、DC-MHSおよびNVIDIAのMGX規格のサポートが、自社の地位を確固たるものにしていると主張しています。

最後に、インテルはAMXサポートをベクターデータベースにおける優位性として強調しました。インテルのスケーラブル・ベクター・サーチ（SVS）ライブラリは、同社のベンチマークにおいてEPYC 9654よりもインデックス作成と検索性能を向上させました。この種のデータベースは、AI RAGワークロードと併用することができ、ベクターデータベースには学習用データセットの埋め込みが格納されます。当然のことながら、この種のワークロードで優れた性能を発揮することはGPUの性能を増強し、学習プロセスの効率化に貢献する可能性があります。

考え

IntelのXeon 6ラインナップは、コア数においてAMDの伝統的な優位性とついに互角に渡り合うことになりましたが、真の真価は、異なるプラットフォームの独立したベンチマークとコスト分析によって明らかになるでしょう。Intelのプレゼンテーションで特に欠けていたのは、競合するArmサーバーチップとのベンチマーク比較です。Armは、主にハイパースケーラーやクラウドプロバイダーが導入するカスタムモデルを通じて、着実にデータセンター市場への進出を果たしてきました。そのため、直接比較するのは少々難しいですが、将来的にはArmの競合製品との仮想化技術の比較が見られることを期待しています。

Intel の Xeon 6700P シリーズは本日世界中で発売され、後継モデルは 2025 年第 1 四半期に登場します。現在、Xeon 6 サーバープラットフォームのテストに取り組んでいますので、ベンチマーク結果をお楽しみに。

画像

の