インテル、Sapphire Rapids 第4世代 Xeon CPU と Ponte Vecchio Max GPU シリーズを発表

画像

の

数年にわたる延期を経て、Intelは本日、第4世代XeonスケーラブルSapphire Rapids CPU（通常版とHBM搭載Max版の両方）、そして「Ponte Vecchio」データセンターGPU Maxシリーズを正式に発表しました。Intelの52種類の新CPUからなる広範なポートフォリオは、昨年デビューしたAMDのEPYC Genoaラインナップと対決することになります。また、IntelはOptane Persistent Memory DIMMの最終ラインについても控えめに発表しました。

AMDのチップは1チップあたり最大96コアを搭載し、コア数でトップを維持していますが、IntelのSapphire Rapidsチップは最大60コアを搭載可能で、第3世代Ice Lake Xeonの40コアというこれまでのピーク時と比べて50%の向上となります。Intelは、これにより前世代のチップと比較して総合的な演算性能が53%向上すると主張していますが、プレゼンテーションではAMDのチップとの直接的な比較は避けました。しかし、Intelは報道関係者にサンプルを提供し、第三者による無制限のレビューを依頼しているため、競合から目線を逸しているわけではありません。

Sapphire Rapidsは、一括購入または新しい従量課金モデルで購入可能な新しいアクセラレーション技術に大きく注力しています。チップ上のこれらの新しい専用アクセラレータ領域は、圧縮、暗号化、データ移動、データ分析など、通常は個別のアクセラレータが必要となる様々な処理において、パフォーマンスを大幅に向上させるように設計されています。

AMDはコア数で明確なリードを持っているにもかかわらず、Genoaプロセッサには同様のアクセラレーション機能を搭載していません。Intelは、新しいアクセラレータを採用することで、一部のワークロードにおいて、ワットあたりのパフォーマンスが前世代モデルと比較して平均2.9倍向上すると主張しています。また、AI推論とトレーニングでは10倍、データ分析ワークロードでは3倍のパフォーマンス向上が見込めると主張しています。

IntelのSapphire Rapidsは、「Intel 7」プロセスで製造され、PCIe 5.0、DDR5メモリ、CXL 1.1インターフェース（タイプ1および2デバイス）のサポートなど、多数の新しい接続技術を搭載しており、AMDのGenoaに対してより強固な立場を築いています。近日中に公開予定の完全レビューに向けて、現在これらのチップのベンチマークテストに取り組んでいますが、その間、新しいラインナップの概要を簡単にご紹介します。

Intel 第4世代 Xeon スケーラブル Sapphire Rapids の価格と仕様

画像

の

IntelのSapphire Rapids製品群は、汎用モデルとして「パフォーマンス」と「メインストリーム」の2ソケットチップに分かれ、合計52モデルで構成されています。さらに、水冷、シングルソケット、ネットワーク、クラウド、HPC、ストレージ/HCIシステム向けの専用モデルも用意されています。その結果、ほぼすべてのワークロードに専用チップがあるかのように見え、製品群が複雑になっています。

これらのチップは、Max、Platinum、Gold、Silver、Bronze のさまざまなサブティアに分割され、それぞれがさまざまなレベルのソケットスケーラビリティ、Optane 永続メモリのサポート、RAS 機能、SGX エンクレーブ容量などを表します。

Sapphire Rapidsチップには、現在、有効化されたアクセラレータデバイスの数が異なります。現時点では、各チップで有効化できるアクセラレータ「デバイス」の数は可変であることを理解しておくことが重要です（上記のスペックシートに記載されています。「デバイス」の数はアクセラレータ「コア」の数とほぼ同じです）。

すべてのアクセラレータに対応する4つのデバイスを搭載したフル対応チップを購入することも、対応デバイスの数が少ない安価なチップモデルを選択することもできます。チップが完全に有効化されていない場合は、Intel on Demandと呼ばれる新しい従量課金制メカニズムを利用して、後からアクセラレータを有効化できます。「+」モデルでは、デフォルトで各タイプのアクセラレータが少なくとも1つ有効化されています。ただし、チップには2つのクラスがあり、それぞれ異なるアクセラレータの割り当てが異なります。以下では、これらの詳細とアクセラレータの種類について詳しく説明します。

新しいプロセッサはすべて、AVX-512、Deep Leaning Boost（DLBoost）、そして新しいAdvanced Matrix Extensions（AMX）命令をサポートしています。AMX命令は、タイルと呼ばれる新しい2次元レジスタセットを使用することで、AIワークロードにおける爆発的なパフォーマンス向上を実現します。IntelのAMX実装は、主にAIのトレーニングと推論処理のパフォーマンス向上に使用されます。

これまでと同様に、Intelの第4世代Xeonスケーラブル・プラットフォームは1、2、4、8ソケット構成をサポートしていますが、AMDのGenoaは2ソケットまでしか拡張できません。AMDはPCIe接続オプションにおいてリードしており、最大128レーンのPCIe 5.0レーンを提供しています。一方、Sapphire Rapidsは最大80レーンのPCIe 5.0レーンを備えています。

Sapphire Rapidsは、ソケットあたり8チャネルに分散し、最大1.5TBのDDR5-4800メモリをサポートします。一方、AMDのGenoaは、12チャネルに分散し、最大6TBのDDR5-4800メモリをサポートします。Intelは2DPC（チャネルあたりのDIMM数）構成をDDR5-4400で仕様化していますが、AMDはまだ2DPCの転送速度の認定を完了していません（同社は今四半期に2DPC仕様を発表する予定です）。

Sapphire Rapidsプロセッサは、8コアモデルから60コアモデルまで幅広く展開しており、価格は415ドルから、フラッグシップモデルのXeon Scalable Platinum 8490Hでは17,000ドルまでとなっています。8490Hは60コア、120スレッドを搭載し、4種類のアクセラレータすべてがフルに有効化されています。また、このチップは112.5MBのL3キャッシュと350WのTDPを備えています。

Sapphire RapidsのTDPは120Wから350Wまでの範囲です。350Wという定格は、Intelの前世代Ice Lake Xeonシリーズのピーク時280Wを大幅に上回りますが、パフォーマンス向上への飽くなき追求により、業界全体でより高い上限へと押し上げられています。例えば、AMDのGenoaは96コアモデルではありますが、TDPはSapphire Rapidsとほぼ同等の360Wで、最大400Wまで設定可能です。

8490Hは唯一の60コアモデルで、すべてのアクセラレーションエンジンが有効な状態でのみ提供されます。56コアのPlatinum 8480+は10,710ドルですが、これは各アクセラレーションデバイスが1つずつしか有効になっていません。このプロセッサは、ブーストクロック3.8GHz、TDP350W、L3キャッシュ105MBを備えています。

Intel Xeon Sapphire Rapids アクセラレーター

画像

の

Intelの新しいオンダイ・アクセラレータは、Sapphire Rapidsプロセッサの重要な新コンポーネントです。前述の通り、すべてのアクセラレータ・オプションが有効になっているチップを購入するか、より安価なモデルを選択して、Intel On Demandサービスを通じて必要に応じてアクセラレータ・ライセンスを購入することもできます。すべてのチップに同じアクセラレータ・オプションが搭載されているわけではありません。これについては後述します。

インテルはアクセラレーターの価格ガイドをまだ公開していませんが、ライセンスはサーバーOEMを通じて提供され、ソフトウェアとライセンスAPIを介してアクティベートされます。フルライセンスを購入する代わりに、使用量を測定する従量課金制の機能を選択することもできます。この機能はCSPの間で人気が出るでしょう。

Intel On Demandサービスの根底にある考え方は、お客様が必要な機能のみを有効化し、その分だけ料金を支払うことで、将来的にサーバーやプロセッサを買い替えることなくアップグレードできるパスを提供することです。お客様は、アクセラレーションエンジンを利用してパフォーマンスを向上させることも可能です。これにより、Intelとそのパートナーは、同一機能のシリコンから複数のSKU（製品群）を製造できるようになり、サプライチェーンの簡素化とコスト削減につながります。

これらの機能は、固定機能アクセラレータをプロセッサダイに搭載してきたIntelの長年の伝統を継承するものです。しかしながら、Sapphire Rapidsの強力なユニットを最大限に活用するには、ソフトウェアによるサポートが必要です。Intelはすでに複数のソフトウェアプロバイダーと連携し、幅広いアプリケーションでのサポートを実現しています。その多くは上記のアルバムでご覧いただけます。

IntelはSapphire Rapidsで4種類のアクセラレータを提供しています。データストリーミングアクセラレータ（DSA）は、CPUのデータコピーとデータ変換処理をオフロードすることでデータ移動効率を向上させます。ダイナミックロードバランサ（DLB）アクセラレータは、パケットの優先順位付けを行い、システム負荷の変動に応じてCPUコア間でネットワークトラフィックを動的に分散させます。

Intel には、分析パフォーマンスを高速化し、CPU コアの負荷を軽減して、データベースクエリのスループットやその他の機能を向上させるインメモリ分析アクセラレータ (IAA) もあります。

Intelは、Quick Assist Technology（QAT）アクセラレータをCPUに搭載しました。この機能は以前はチップセットに搭載されていました。このハードウェアオフロードアクセラレータは、暗号化と圧縮/解凍のパフォーマンスを強化します。Intelは長年にわたりQATアクセラレータを採用しており、この技術は既に幅広いソフトウェアサポートを受けています。

残念ながら、チップのアクセラレーション機能は機種によって異なるため、すべてのモデルで4つの「デバイス」を購入することはできません。Sapphire Rapidsプロセッサは、SKU表に記載されているように、2種類の設計（ダイチョップ）で構成されています。XCCチップは合計4つのダイで構成され、各ダイには各アクセラレータ（IAA、QAT、DSA、DLB）が1つずつ搭載されています。つまり、これらのチップでは各タイプのアクセラレータを最大4つまで有効化できます（例：IAA 4つ、QAT 4つ、DSA 4つ、DLB 4つ）。

対照的に、一部のチップは単一の MCC ダイを使用しているため、IAA アクセラレータと DSA アクセラレータが 1 つずつ、QAT アクセラレータと DLB アクセラレータがそれぞれ 2 つずつ (QAT 2 つ、DLB 2 つ、IAA 1 つ、DSA 1 つ) しかありません。

Intel Max CPU シリーズと Ponte Vecchio Max GPU シリーズ

画像

の

Intelは先日、近日発売予定のXeon MaxシリーズCPUとIntel Data Center GPU Maxシリーズ（Ponte Vecchio）の詳細を発表しました。本日、正式発表となります。

IntelのHBM2e搭載Max CPUモデルは、32～56コアで市場に投入され、標準のSapphire Rapids設計をベースとしています。これらのチップは、オンパッケージにHBM2eメモリを採用した初のx86プロセッサであり、プロセッサに64GBという大容量のローカルメモリプールを提供します。HBMメモリは、コア数にそれほど左右されないメモリ依存のワークロードに役立つため、Maxモデルは標準モデルよりもコア数が少なくなっています。対象となるワークロードには、数値流体力学、気候・気象予報、AIトレーニングと推論、ビッグデータ分析、インメモリデータベース、ストレージアプリケーションなどがあります。

Max CPUは、HBMメモリをすべてのメモリ操作に使用する構成（HBMのみ、DDR5メモリは不要）、HBMを独立したメモリ領域として扱うHBM「フラットモード」（広範なソフトウェアサポートが必要）、HBM2eをDRAMベースのキャッシュとして使用するHBM「キャッシングモード」など、多様な構成で動作可能です。後者はコード変更を必要とせず、おそらく最も頻繁に使用される動作モードになるでしょう。

Xeon Max CPUは、3D V-Cacheと呼ばれる3Dスタック型L3キャッシュを搭載したAMDのEPYC Milan-Xプロセッサと競合します。Milan-Xモデルはチップあたり最大768MBのL3キャッシュを搭載し、驚異的な帯域幅を実現しますが、IntelのHBM2e方式ほどの容量は提供していません。どちらの方式にも長所と短所があるため、Xeon Maxプロセッサをぜひ試してみたいと考えています。

注目すべきは、富士通のA64FX Armプロセッサが同様のHBM技術を採用していることです。HBMを搭載したA64FXプロセッサは、数年間世界最速を誇ったスーパーコンピュータ「富岳」に搭載されています（昨年、AMD搭載のエクサスケールクラスの「Frontier」に抜かれるまで）。富岳は依然としてTop500ランキングで2位を維持しています。

Intelは、以前はPonte Vecchioというコードネームで呼ばれていたMax GPUシリーズも発表しました。Intelは以前、標準PCIeとOAMの両方のフォームファクターで提供される3種類のGPUモデルを発表していました。Max GPUシリーズの詳細については、こちらをご覧ください。

インテル Optane パーシステントメモリー (PMem) 300

Sapphire Rapidsの発売に合わせて、IntelはOptane Persistent Memory DIMMの最終シリーズをひっそりと発表しました。最終世代となるこのメモリは、コードネーム「Crow's Pass」、正式名称は「Intel Optane Persistent Memory 300」で、128GB、256GB、512GBの容量で、DDR5-4400で動作します。これは、以前のピーク時のDDR4-3200から大幅に改善されたことになりますが、Sapphire RapidsシステムでOptaneを採用する場合、標準メモリをDDR5-4800からDDR5-4400にダウンクロックする必要があることも意味します。

Intelによると、300シリーズはシーケンシャル帯域幅が56%、ランダムワークロード帯域幅が214%向上し、ソケットあたり最大4TB、システム全体で最大6TBのOptaneメモリをサポートするとのことです。前世代のOptane 200シリーズと同様に、このDIMMは15Wで動作します。ただし、DDR-T2インターフェースとAES-XTS 256ビット暗号化に対応しています。

2015年のデビュー当時、インテルとパートナー企業のマイクロンは、その基盤技術である3D XPointがNANDストレージの1000倍の性能と耐久性、そしてDRAMの10倍の密度を実現すると宣伝していましたが、この技術は今や終焉に向かっています。インテルはすでにクライアントPC向けOptaneストレージ製品の生産を中止していますが、これはNAND事業をSK Hynixに売却することを考えれば当然のことです。

しかし、インテルはデータセンター向けメモリ事業を維持しており、その中にはメインメモリの補助として機能できるパーシステント・メモリDIMM（インテルだけが提供できる機能）も含まれています。これらの製品も、300シリーズモジュール以降の世代は開発されません。

Intelは、Optane事業の縮小理由として、CXLベースのアーキテクチャへの業界の移行を挙げており、これはIntelの元パートナーであるMicronが昨年Optane事業から撤退した際の見解を反映しています。Sapphire RapidsはOptane DIMMとCXLインターフェースの両方をサポートしていますが、この2つが同時に見られるのは今回が最後になるでしょう。将来的には、CXLが特殊なメモリをチップに接続する方法として業界から好まれるようになるでしょう。

現在、Sapphire Rapids のレビューのためのテストを実施中ですので、近日中に完全なパフォーマンスの内訳とアーキテクチャの詳細をお伝えしますので、どうぞご期待ください。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。

Tips