インテル Ponte Vecchio と Xe HPC アーキテクチャ: ビッグデータ向けに構築

IntelはIntel Architecture Day 2021で大量の新情報を発表しました。Alder Lake CPU、Sapphire Rapids、Arc Alchemist GPUなどの詳細については、他の記事をご覧ください。Arc Alchemist GPUは、ここで説明するIntelのPonte VecchioとXe HPCアーキテクチャに特に関連しています。大きいです。いや、巨大です。特に8つのGPUがすべて連携する最大構成ではそうです。次期Auroraスーパーコンピューターは、米国初のエクサスケール・スーパーコンピューターを目指してSapphire RapidsとPonte Vecchioを採用する予定ですが、エネルギー省がIntelの次期ハードウェアの採用を決定したのには十分な理由があります。

Intel Ponte Vecchio および Xe HPC アーキテクチャ — （画像提供：Intel）

ゲーミング向けに構築されたXe HPGと同様に、Xe HPCの基本的な構成要素はXeコアです。Xeコアには依然として8つのベクトルエンジンと8つのマトリックスエンジンが搭載されていますが、このXeコアはXe HPGとは根本的に大きく異なります。ベクトルエンジンは512ビットレジスタ（64ビット浮動小数点用）を使用し、XMXマトリックスエンジンは4096ビットのデータチャンクに拡張されています。これにより、ベクトルエンジンの潜在的パフォーマンスは2倍、マトリックスエンジンのFP16スループットは4倍になります。L1キャッシュサイズとロード/ストア帯域幅も同様に増加し、エンジンへの供給能力を高めています。

Xe HPCは、サイズが大きいだけでなく、追加のデータ型もサポートしています。Xe HPG MXMはFP16とBF16データのみに対応していますが、Xe HPCは機械学習コミュニティで人気が高まっているTF32（Tensor Float 32）もサポートしています。ベクトルエンジンはFP64データのサポートも追加していますが、FP32データと同じレートでしかサポートされません。

Xeコア1基あたり8つのベクトルエンジンを搭載しているため、1つのXeコアの潜在的スループットは、ベクトルエンジンでFP64またはFP32演算で256回、またはFP16演算で512回です。マトリックスエンジンの場合、各Xeコアは1クロックあたり4096回のFP16またはBF16演算、1クロックあたり8192回のINT8演算、または1クロックあたり2048回のTF32演算を実行できます。もちろん、Ponte Vecchioには複数のXeコアが搭載されています。

Xe HPCは16個のXeコアユニットを1つのスライスにまとめていますが、コンシューマー向けXe HPGは最大8個までしか搭載されていません。ここで興味深いのは、NvidiaのGA100アーキテクチャとは異なり、Xe HPCにはレイトレーシングユニット（RTU）が搭載されていることです。RTUの速度がNvidiaのRTコアと比べてどの程度速いかは不明ですが、プロフェッショナル向けレイトレーシングアプリケーションのパフォーマンスを大幅に向上させる可能性を秘めています。

Ponte Vecchio の各 Xe コアには 512KB の L1 キャッシュが搭載されており、これはコンシューマー向け GPU と比較すると比較的大容量です。スライス内の Xe コアはすべて、単一のハードウェアコンテキストで動作します。ただし、これはあくまでスライスレベルの話です。

画像

の

Xe HPCのメインコンピューティングコアは4つのスライスで構成され、144MBの大容量L2キャッシュとメモリファブリックで相互接続され、8つのXe Linkコネクタ、4つのHBM2eスタック、そしてメディアエンジンを備えています。しかし、Intelの取り組みはまだ終わりではありません。Xe HPCは、EMIBを介して相互接続された、これらすべての機能を2倍にする2スタック構成でも提供されています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Xe LinkはXe HPCの重要な構成要素であり、マルチGPU構成間で高速かつコヒーレントな統合ファブリックを提供します。2way、4way、6way、8wayのトポロジーで使用でき、各GPUは他のすべてのGPUに直接接続されます。これらをすべて組み合わせることで、膨大なコンピューティング能力が得られます。

Intelはクロック速度をまだ公表していませんが、1クロックあたり最大32,768回のFP64演算が可能になると見込まれています。1.0GHzから2.0GHzの間で動作する場合、Xe HPC GPU単体で8.2～16.4TFLOPSのFP64演算性能、8基のクラスター構成で最大131TFLOPSの性能を実現します。さて、ここで2つ目の話題、Xe HPCの製品化された現実、Ponte Vecchioについてお話しましょう。

画像

の

Ponte Vecchioは、パッケージングと統合において大きな前進となるでしょう。SoC全体は、5つの異なるプロセスノードで製造された47個のアクティブタイルにまたがる1,000億個以上のトランジスタで構成されています。これはすべて、Intelの3Dチップスタッキング技術によって実現されています。詳細については既に多くの記事で取り上げていますが、それでもIntelにとって目覚ましい成果と言えるでしょう。

Ponte Vecchioの中核を成すコンピューティングタイルは、TSMCのN5プロセスで製造され、それぞれ8個のXeコアを搭載します。これらは、Ramboキャッシュ、HBM2e、PCIe Gen5インターフェースを搭載したIntel Foverosベースタイル（新たに名称変更されたIntel 7プロセスで製造）に接続されます。一方、Xe LinkタイルはTSMC N7プロセスを採用しています。

IntelはすでにA0シリコン（基本的には初期段階のシリコンで、最終生産段階には至っていません）を稼働させており、FP32で45 TFLOPS以上、HBM2e帯域幅で5TBps以上を誇ります。接続速度も2TBps以上です。

Auroraスーパーコンピューターは、Xe Linkを介して6ウェイ構成で動作します。これは、上記のAurora Bladeに見られるように、Xe Linkを介して接続されています。Aurora Bladeにも2基のSapphire Rapids CPUが搭載されており、当然ながらすべて液冷式で冷却されているため、冷却性能は維持されています。

もちろん、Ponte Vecchio の登場はこれで最後ではありません。パッケージに詰め込まれた卓越したパフォーマンスと機能に加え、数百、数千ノードへのスケールアウトに対応した設計により、Ponte Vecchio は今後数年間でさらに多くの導入事例に登場していくことは間違いありません。これは Xe HPC ハードウェアの第一弾であり、今後さらに多くのバージョンが計画されており、より優れたパフォーマンスと機能を提供します。

ジャレッド・ウォルトンは、Tom's Hardwareのシニアエディターで、GPU全般を専門としています。2004年からテクノロジージャーナリストとして活躍し、AnandTech、Maximum PC、PC Gamerなどで執筆活動を行っています。初代S3 Virgeの「3Dデセラレータ」から最新のGPUまで、ジャレッドは最新のグラフィックストレンドを常に把握しており、ゲームパフォーマンスに関する質問は彼にお任せください。

Tips