Supercomputing 22の開幕数日前、Intelは次世代Xeon Max CPU(旧コード名Sapphire Rapids HBM)と、データセンター向けGPU Maxシリーズ(Ponte Vecchio)を発表しました。これらの新製品は、様々な種類の高性能コンピューティング・ワークロードに対応し、また、最も複雑なスーパーコンピューティング・タスクを解決するために連携して機能します。
Xeon Max CPU: Sapphire Rapids が 64GB HBM2E を搭載
画像
1
の
3

IntelのXeon Maxプロセッサは、最大56個の高性能Golden Coveコア(IntelのEMIBテクノロジーで相互接続された4つのチップレットに分散)を搭載し、AIおよびHPCワークロード向けの複数のアクセラレータエンジンと64GBのオンパッケージHBM2Eメモリによってさらに強化されています。他のSapphire Rapids CPUと同様に、Xeon Maxは8チャネルのDDR5メモリとPCIe Gen 5インターフェースをサポートし、CXL 1.1プロトコルもサポートするため、必要に応じてCXL対応アクセラレータをすべて利用できます。
新しいコアは、ベクターAVX-512およびDeep Learning Boost(AVX512_VNNIおよびAVX512_BF16)アクセラレータのサポートに加え、Advanced Matrix Extensions(AMX)タイル型行列乗算アクセラレータも搭載しています。これは、BF16およびINT8入力タイプをサポートする融合積和演算ユニットのグリッドであり、わずか12命令でプログラム可能で、コアあたり1サイクルあたり最大1024回のTMUL BF16演算または2048回のTMUL INT8演算を実行できます。また、新しいCPUは、データのコピーと変換のワークロードをCPUからオフロードするデータストリーミングアクセラレータ(DSA)もサポートしています。
64GBのオンパッケージHBM2Eメモリ(16GB×4スタック)は、ピーク帯域幅が約1TB/秒で、コアあたり約1.14GBのHBM2E、つまりコアあたり18.28GB/秒ということになります。この数値を具体的に例に挙げると、DDR5-4800モジュールを8つ搭載した56コアのSapphire Rapidsプロセッサは、最大307.2GB/秒の帯域幅を実現し、コアあたり5.485GB/秒ということになります。一方、Xeon MaxはHBM2Eメモリを様々な用途で使用できます。システムメモリとして使用する場合(コード変更は不要)、DDR5メモリサブシステム用の高性能キャッシュとして使用する場合(コード変更は不要)、統合メモリプール(HBMフラットモード)の一部として使用する場合(ソフトウェアによる最適化が必要)などです。
ワークロードに応じて、IntelのAMX対応Xeon Maxプロセッサは、従来のFP32処理を採用した現行のXeon Scalable 8380プロセッサと比較して、同じワークロードで3倍~5.3倍のパフォーマンス向上を実現します。また、分子動力学モデル開発などのアプリケーションでは、新しいHBM2E搭載CPUは、3D V-Cacheを搭載したAMDのEPYC 7773Xと比較して最大2.8倍の速度を実現します。
画像
1
の
13

しかし、HBM2EはIntelにとってもう一つ重要な意味を持ちます。CPUとGPU間のデータ移動オーバーヘッドをある程度削減するものであり、これは様々なHPCワークロードに不可欠です。そこで本日の2つ目の発表、データセンターGPU MaxシリーズのコンピュートGPUについてお話しします。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
データセンター GPU Max: インテルのデータセンターイノベーションの頂点
インテルのデータセンターGPU MaxコンピューティングGPUシリーズは、同社が開発コード名「Ponte Vecchio」で呼ぶアーキテクチャを採用します。このアーキテクチャは2019年に初めて発表され、2020年から2021年にかけて詳細が発表されました。インテルのPonte Vecchioは、1,000億個を超えるトランジスタ(メモリを除く)を47個のタイル(HBM2Eタイル8個を含む)に搭載した、史上最も複雑なプロセッサです。さらに、この製品は、異なるタイルが他のメーカーによって異なるプロセス技術で製造されているため、インテルの高度なパッケージング技術(EMIBなど)を広範囲に採用しています。
画像
1
の
6

Intel のデータセンター GPU Max コンピューティング GPU は、AI および HPC ワークロード向けに特別にカスタマイズされた同社の Xe-HPC アーキテクチャを採用しているため、適切なデータ形式と命令、および 512 ビットのベクトル エンジンと 4096 ビットのマトリックス (テンソル) エンジンをサポートします。
スワイプして水平にスクロールします
ヘッダーセル - 列 0 | データセンターマックス1100 | データセンター最大1350 | データセンター最大1550 | AMD インスティンクト MI250X | エヌビディア H100 | エヌビディア H100 | リアルト橋 |
---|---|---|---|---|---|---|---|
フォームファクター | PCIe | OAM | OAM | OAM | SXM | PCIe | OAM |
タイル + メモリ | ? | ? | 39+8 | 2+8 | 1+6 | 1+6 | 多くの |
トランジスタ | ? | ? | 1000億 | 580億 | 800億 | 800億 | たくさんあります |
Xe HPC コア | コンピューティングユニット | 56 | 112 | 128 | 220 | 132 | 114 | 160 個の強化された Xe HPC コア |
RTコア | 56 | 112 | 128 | - | - | - | ? |
512ビットベクトルエンジン | 448 | 896 | 1024 | ? | ? | ? | ? |
4096ビットマトリックスエンジン | 448 | 896 | 1024 | ? | ? | ? | ? |
L1キャッシュ | ? | ? | 64MB、105TB/秒 | ? | ? | ? | ? |
L2 ランボー キャッシュ | ? | ? | 408MB、13TB/秒 | ? | 50MB | 50MB | ? |
HBM2E | 48GB | 96GB | 128GB、3.2TB/秒 | 3.2 TB/秒で128 GB/秒 | 80GB、3.35TB/秒 | 2 TB/秒で8GB | ? |
マルチGPU IO | 8 | 16 | 16 | 8 | 8 | 8 | ? |
力 | 300W | 450W | 600W | 560W | 700W | 350W | 800W |
Xe-HPGと比較して、Xe-HPCはメモリとキャッシュのサブシステムが大幅に洗練されており、Xeコアの構成も異なります(Xe-HPGコアは16個の256ビットベクターエンジンと16個の1024ビットマトリックスエンジンを搭載しているのに対し、Xe-HPCコアは8個の512ビットベクターエンジンと8個の4096ビットベクターエンジンを搭載しています)。さらに、Xe-HPC GPUにはテクスチャリングユニットやレンダリングバックエンドがないため、従来の方法でグラフィックスをレンダリングすることはできません。一方、Xe-HPGは驚くべきことに、スーパーコンピュータの可視化のためのレイトレーシングをサポートしています。
Xe-HPCの最も重要な要素の一つは、IntelのXe Matrix Extensions(XMX)です。これにより、Intel Data Center GPU Max 1550(下表参照)のテンソル/マトリックス演算性能は、Intelによれば最大419 TF32 TFLOPS、最大1678 INT8 TOPSと、かなり驚異的な性能を発揮します。もちろん、コンピューティングGPU開発者が提供するピーク性能の数値は重要ですが、実際のアプリケーションにおける実際のスーパーコンピュータで達成可能な性能を反映しているとは限りません。それでも、Intelの最上位機種であるPonte Vecchioは、ほとんどの場合でNvidiaのH100に大きく遅れをとっており、FP32 Tensor(TF32)を除くすべてのケースでAMDのInstinct MI250Xに対して明確な優位性を発揮できていないことに気づかずにはいられません。
スワイプして水平にスクロールします
ヘッダーセル - 列 0 | データセンター最大1550 | AMD インスティンクト MI250X | エヌビディア H100 | エヌビディア H100 |
---|---|---|---|---|
フォームファクター | OAM | OAM | SXM | PCIe |
HBM2E | 128GB、3.2TB/秒 | 3.2 TB/秒で128 GB/秒 | 80GB、3.35TB/秒 | 2 TB/秒で80GB |
力 | 600W | 560W | 700W | 350W |
ピークINT8ベクター | ? | 383トップス | 133.8 TFLOPS | 102.4 TFLOPS |
ピークFP16ベクター | 104 TFLOPS | 383 TFLOPS | 134 TFLOPS | 102.4 TFLOPS |
ピークBF16ベクター | ? | 383 TFLOPS | 133.8 TFLOPS | 102.4 TFLOPS |
ピークFP32ベクター | 52 TFLOPS | 47.9 TFLOPS | 67 TFLOPS | 51テラフロップス |
ピークFP64ベクター | 52 TFLOPS | 47.9 TFLOPS | 34 TFLOPS | 26 TFLOPS |
ピークINT8テンソル | 1678トップス | ? | 1979 トップ | 3958 トップ* | 1513 トップス | 3026 トップス* |
ピークFP16テンソル | 839 TFLOPS | ? | 989 TFLOPS | 1979 TFLOPS* | 756 TFLOPS | 1513 TFLOPS* |
ピークBF16テンソル | 839 TFLOPS | ? | 989 TFLOPS | 1979 TFLOPS* | 756 TFLOPS | 1513 TFLOPS* |
ピークFP32テンソル | 419 TFLOPS | 95.7 TFLOPS | 989 TFLOPS | 756 TFLOPS |
ピークFP64テンソル | - | 95.7 TFLOPS | 67 TFLOPS | 51テラフロップス |
一方、Intel は、同社の Data Center GPU Max 1550 は、Riskfuel クレジット オプション価格で Nvidia の A100 より 2.4 倍高速であり、NekRS 仮想リアクター シミュレーションでは A100 より 1.5 倍のパフォーマンス向上を提供すると述べています。
Intel は、3 つの Ponte Vecchio 製品を提供する予定です。1 つは、OAM フォーム ファクターで 128 個の Xe-HPC コア、128 GB の HBM2E メモリを搭載し、最大 600W の熱設計電力定格を備えた最高級の Data Center GPU Max 1550、もう 1 つは、OAM フォーム ファクターで 112 個の Xe-HPC コア、96 GB のメモリ、450W TDP を備えた低価格の Data Center GPU Max 1350、もう 1 つはデュアル ワイド FLFH フォーム ファクターで 56 個の Xe-HPC コアを搭載したプロセッサを搭載し、56 GB の HBM2E メモリを備え、300W TDP 定格のエントリー レベルの Data Center GPU Max 1100 です。
一方、インテルはスーパーコンピュータの顧客向けに、1,800W および 2,400W TDP 定格のキャリア ボード上に 4 つの OAM モジュールを搭載した Max シリーズ サブシステムを提供する予定です。
画像
1
の
17

インテルのRialto Bridge:Maxの強化
Intelは本日、Data Center GPU MaxコンピューティングGPUの正式発表に加え、2024年に登場予定の次世代Data Center GPU(コードネーム:Rialto Bridge)のプレビューも公開しました。このAIおよびHPCコンピューティングGPUは、強化されたXe-HPCコアをベースとし、アーキテクチャは若干異なると思われますが、Ponte Vecchiベースのアプリケーションとの互換性は維持されます。ただし、この複雑性の増加により、次世代フラッグシップコンピューティングGPUのTDPは800Wに増加します。ただし、よりシンプルで消費電力の少ないバージョンも用意される予定です。
可用性
インテル Xeon Max とインテル Data Center GPU Max の両方を最初に導入する顧客の一つは、アルゴンヌ国立研究所です。同研究所は、Xeon Max CPU と Data Center GPU Max デバイス(ブレードあたり 2 CPU、6 GPU)を搭載した 10,000 枚以上のブレードを基盤とする、2 エクサフロップス超のスーパーコンピュータを構築中です。さらに、インテルとアルゴンヌは、128 枚の量産ブレードで構成される Aurora の試験開発システム Sunspot の構築を完了させており、2022 年後半には関係者に提供される予定です。Aurora スーパーコンピュータは 2023 年に稼働開始予定です。
サーバーメーカーにおけるインテルのパートナーは、Xeon Max CPU と Data Center GPU Max デバイスをベースにしたマシンを 2023 年 1 月に発売する予定です。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。