57
インテル、AMDやNvidiaに対抗すべくXeon Max CPUとGPUを発表

Supercomputing 22の開幕数日前、Intelは次世代Xeon Max CPU(旧コード名Sapphire Rapids HBM)と、データセンター向けGPU Maxシリーズ(Ponte Vecchio)を発表しました。これらの新製品は、様々な種類の高性能コンピューティング・ワークロードに対応し、また、最も複雑なスーパーコンピューティング・タスクを解決するために連携して機能します。

Xeon Max CPU: Sapphire Rapids が 64GB HBM2E を搭載 

画像

1

3

インテル
(画像提供:Intel)

IntelのXeon Maxプロセッサは、最大56個の高性能Golden Coveコア(IntelのEMIBテクノロジーで相互接続された4つのチップレットに分散)を搭載し、AIおよびHPCワークロード向けの複数のアクセラレータエンジンと64GBのオンパッケージHBM2Eメモリによってさらに強化されています。他のSapphire Rapids CPUと同様に、Xeon Maxは8チャネルのDDR5メモリとPCIe Gen 5インターフェースをサポートし、CXL 1.1プロトコルもサポートするため、必要に応じてCXL対応アクセラレータをすべて利用できます。

新しいコアは、ベクターAVX-512およびDeep Learning Boost(AVX512_VNNIおよびAVX512_BF16)アクセラレータのサポートに加え、Advanced Matrix Extensions(AMX)タイル型行列乗算アクセラレータも搭載しています。これは、BF16およびINT8入力タイプをサポートする融合積和演算ユニットのグリッドであり、わずか12命令でプログラム可能で、コアあたり1サイクルあたり最大1024回のTMUL BF16演算または2048回のTMUL INT8演算を実行できます。また、新しいCPUは、データのコピーと変換のワークロードをCPUからオフロードするデータストリーミングアクセラレータ(DSA)もサポートしています。

64GBのオンパッケージHBM2Eメモリ(16GB×4スタック)は、ピーク帯域幅が約1TB/秒で、コアあたり約1.14GBのHBM2E、つまりコアあたり18.28GB/秒ということになります。この数値を具体的に例に挙げると、DDR5-4800モジュールを8つ搭載した56コアのSapphire Rapidsプロセッサは、最大307.2GB/秒の帯域幅を実現し、コアあたり5.485GB/秒ということになります。一方、Xeon MaxはHBM2Eメモリを様々な用途で使用できます。システムメモリとして使用する場合(コード変更は不要)、DDR5メモリサブシステム用の高性能キャッシュとして使用する場合(コード変更は不要)、統合メモリプール(HBMフラットモード)の一部として使用する場合(ソフトウェアによる最適化が必要)などです。

ワークロードに応じて、IntelのAMX対応Xeon Maxプロセッサは、従来のFP32処理を採用した現行のXeon Scalable 8380プロセッサと比較して、同じワークロードで3倍~5.3倍のパフォーマンス向上を実現します。また、分子動力学モデル開発などのアプリケーションでは、新しいHBM2E搭載CPUは、3D V-Cacheを搭載したAMDのEPYC 7773Xと比較して最大2.8倍の速度を実現します。

画像

1

13

インテル
(画像提供:Intel)

しかし、HBM2EはIntelにとってもう一つ重要な意味を持ちます。CPUとGPU間のデータ移動オーバーヘッドをある程度削減するものであり、これは様々なHPCワークロードに不可欠です。そこで本日の2つ目の発表、データセンターGPU MaxシリーズのコンピュートGPUについてお話しします。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

データセンター GPU Max: インテルのデータセンターイノベーションの頂点

インテルのデータセンターGPU MaxコンピューティングGPUシリーズは、同社が開発コード名「Ponte Vecchio」で呼ぶアーキテクチャを採用します。このアーキテクチャは2019年に初めて発表され、2020年から2021年にかけて詳細が発表されました。インテルのPonte Vecchioは、1,000億個を超えるトランジスタ(メモリを除く)を47個のタイル(HBM2Eタイル8個を含む)に搭載した、史上最も複雑なプロセッサです。さらに、この製品は、異なるタイルが他のメーカーによって異なるプロセス技術で製造されているため、インテルの高度なパッケージング技術(EMIBなど)を広範囲に採用しています。

画像

1

6

インテル
(画像提供:Intel)

Intel のデータセンター GPU Max コンピューティング GPU は、AI および HPC ワークロード向けに特別にカスタマイズされた同社の Xe-HPC アーキテクチャを採用しているため、適切なデータ形式と命令、および 512 ビットのベクトル エンジンと 4096 ビットのマトリックス (テンソル) エンジンをサポートします。

スワイプして水平にスクロールします

ヘッダーセル - 列 0データセンターマックス1100データセンター最大1350データセンター最大1550AMD インスティンクト MI250Xエヌビディア H100エヌビディア H100リアルト橋
フォームファクターPCIeOAMOAMOAMSXMPCIeOAM
タイル + メモリ??39+82+81+61+6多くの
トランジスタ??1000億580億800億800億たくさんあります
Xe HPC コア | コンピューティングユニット56112128220132114160 個の強化された Xe HPC コア
RTコア56112128---?
512ビットベクトルエンジン4488961024????
4096ビットマトリックスエンジン4488961024????
L1キャッシュ??64MB、105TB/秒????
L2 ランボー キャッシュ??408MB、13TB/秒?50MB50MB?
HBM2E48GB96GB128GB、3.2TB/秒3.2 TB/秒で128 GB/秒80GB、3.35TB/秒2 TB/秒で8GB?
マルチGPU IO81616888?
300W450W600W560W700W350W800W

Xe-HPGと比較して、Xe-HPCはメモリとキャッシュのサブシステムが大幅に洗練されており、Xeコアの構成も異なります(Xe-HPGコアは16個の256ビットベクターエンジンと16個の1024ビットマトリックスエンジンを搭載しているのに対し、Xe-HPCコアは8個の512ビットベクターエンジンと8個の4096ビットベクターエンジンを搭載しています)。さらに、Xe-HPC GPUにはテクスチャリングユニットやレンダリングバックエンドがないため、従来の方法でグラフィックスをレンダリングすることはできません。一方、Xe-HPGは驚くべきことに、スーパーコンピュータの可視化のためのレイトレーシングをサポートしています。

Xe-HPCの最も重要な要素の一つは、IntelのXe Matrix Extensions(XMX)です。これにより、Intel Data Center GPU Max 1550(下表参照)のテンソル/マトリックス演算性能は、Intelによれば最大419 TF32 TFLOPS、最大1678 INT8 TOPSと、かなり驚異的な性能を発揮します。もちろん、コンピューティングGPU開発者が提供するピーク性能の数値は重要ですが、実際のアプリケーションにおける実際のスーパーコンピュータで達成可能な性能を反映しているとは限りません。それでも、Intelの最上位機種であるPonte Vecchioは、ほとんどの場合でNvidiaのH100に大きく遅れをとっており、FP32 Tensor(TF32)を除くすべてのケースでAMDのInstinct MI250Xに対して明確な優位性を発揮できていないことに気づかずにはいられません。

スワイプして水平にスクロールします

ヘッダーセル - 列 0データセンター最大1550AMD インスティンクト MI250Xエヌビディア H100エヌビディア H100
フォームファクターOAMOAMSXMPCIe
HBM2E128GB、3.2TB/秒3.2 TB/秒で128 GB/秒80GB、3.35TB/秒2 TB/秒で80GB
600W560W700W350W
ピークINT8ベクター?383トップス133.8 TFLOPS102.4 TFLOPS
ピークFP16ベクター104 TFLOPS383 TFLOPS134 TFLOPS102.4 TFLOPS
ピークBF16ベクター?383 TFLOPS133.8 TFLOPS102.4 TFLOPS
ピークFP32ベクター52 TFLOPS47.9 TFLOPS67 TFLOPS51テラフロップス
ピークFP64ベクター52 TFLOPS47.9 TFLOPS34 TFLOPS26 TFLOPS
ピークINT8テンソル1678トップス?1979 トップ | 3958 トップ*1513 トップス | 3026 トップス*
ピークFP16テンソル839 TFLOPS?989 TFLOPS | 1979 TFLOPS*756 TFLOPS | 1513 TFLOPS*
ピークBF16テンソル839 TFLOPS?989 TFLOPS | 1979 TFLOPS*756 TFLOPS | 1513 TFLOPS*
ピークFP32テンソル419 TFLOPS95.7 TFLOPS989 TFLOPS756 TFLOPS
ピークFP64テンソル-95.7 TFLOPS67 TFLOPS51テラフロップス

一方、Intel は、同社の Data Center GPU Max 1550 は、Riskfuel クレジット オプション価格で Nvidia の A100 より 2.4 倍高速であり、NekRS 仮想リアクター シミュレーションでは A100 より 1.5 倍のパフォーマンス向上を提供すると述べています。

Intel は、3 つの Ponte Vecchio 製品を提供する予定です。1 つは、OAM フォーム ファクターで 128 個の Xe-HPC コア、128 GB の HBM2E メモリを搭載し、最大 600W の熱設計電力定格を備えた最高級の Data Center GPU Max 1550、もう 1 つは、OAM フォーム ファクターで 112 個の Xe-HPC コア、96 GB のメモリ、450W TDP を備えた低価格の Data Center GPU Max 1350、もう 1 つはデュアル ワイド FLFH フォーム ファクターで 56 個の Xe-HPC コアを搭載したプロセッサを搭載し、56 GB の HBM2E メモリを備え、300W TDP 定格のエントリー レベルの Data Center GPU Max 1100 です。

一方、インテルはスーパーコンピュータの顧客向けに、1,800W および 2,400W TDP 定格のキャリア ボード上に 4 つの OAM モジュールを搭載した Max シリーズ サブシステムを提供する予定です。

画像

1

17

インテル
(画像提供:Intel)

インテルのRialto Bridge:Maxの強化

Intelは本日、Data Center GPU MaxコンピューティングGPUの正式発表に加え、2024年に登場予定の次世代Data Center GPU(コードネーム:Rialto Bridge)のプレビューも公開しました。このAIおよびHPCコンピューティングGPUは、強化されたXe-HPCコアをベースとし、アーキテクチャは若干異なると思われますが、Ponte Vecchiベースのアプリケーションとの互換性は維持されます。ただし、この複雑性の増加により、次世代フラッグシップコンピューティングGPUのTDPは800Wに増加します。ただし、よりシンプルで消費電力の少ないバージョンも用意される予定です。

可用性

インテル Xeon Max とインテル Data Center GPU Max の両方を最初に導入する顧客の一つは、アルゴンヌ国立研究所です。同研究所は、Xeon Max CPU と Data Center GPU Max デバイス(ブレードあたり 2 CPU、6 GPU)を搭載した 10,000 枚以上のブレードを基盤とする、2 エクサフロップス超のスーパーコンピュータを構築中です。さらに、インテルとアルゴンヌは、128 枚の量産ブレードで構成される Aurora の試験開発システム Sunspot の構築を完了させており、2022 年後半には関係者に提供される予定です。Aurora スーパーコンピュータは 2023 年に稼働開始予定です。

サーバーメーカーにおけるインテルのパートナーは、Xeon Max CPU と Data Center GPU Max デバイスをベースにしたマシンを 2023 年 1 月に発売する予定です。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。