Intel Xe HPとXe HPC：驚異の40 TFLOPS以上を実装

Intel Xe HPとXe HPCは、同社のデータセンターGPUへの野望の頂点を極める製品です。Intel Architecture Day 2020において、同社は期待される成果を明確に示しました。端的に言えば、Xe HPは膨大な演算能力を発揮します。これはIntelのLarrabeeイニシアチブの精神的な後継であり、Xeon Phi製品ラインの後継でもあります。ターゲットはNVIDIAのA100ソリューションにしっかりと設定されています。処理すべきデータ量が指数関数的に増加する中、Intelは強力な武器を投入しています。

Xe HPチップはコンシューマー向けグラフィックカードには搭載されません。その役割は、HPC（ハイパフォーマンスコンピューティング）要素を省き、レイトレーシングハードウェアを搭載した、熱心なゲーマーをターゲットとしたGPUであるIntel Xe HPGに委ねられています。ただし、Xe HPはIntelの10nm SuperFinプロセス（実際には次のステップである10nm Enhanced SuperFin）を採用します。これは、次期Tiger Lake CPUで使用される「10nm++」ノードの新しい名称です。

Xe グラフィックスアーキテクチャ (Xe LP グラフィックスの概要で詳細を読むことができます) は、テラフロップス (つまり、コンシューマーレベルのハードウェア) からペタフロップス (つまり、スーパーコンピューター) まで拡張できるように設計されており、Intel Xe HP / HPC は後者を目指しています。基本設計は単一のタイルで構成され、これはベクトルおよびマトリックスコンピューティングに重点を置いたモノリシック GPU に対する Intel の名称です。仕様については後ほど説明しますが、重要なのは、現世代の EMIB (Embedded Multi-die Interconnect Bridge) と、将来の Xe HPC Ponte Vecchio の Foveros (ダイスタッキング) および Co-EMIB を介して、Intel が 1 タイルの実装から 4 タイルのソリューションまで拡張できることです。高速インターコネクトのおかげで、1 タイル、2 タイル、および 4 タイルのソリューションはすべて単一の GPU インスタンスとして表示されますが、後者の方がパフォーマンスがはるかに高くなります。

過去数ヶ月にわたり、Xe HPの画像をいくつか見てきましたが、今やそれぞれの画像が何を表しているのかが正確に分かりました。シングルタイルソリューションは単体でもかなり大きなチップですが、2タイルや4タイルのパッケージと比べると小さく見えます。Xe HPはマイクロプロセッサの最大レチクルサイズ（約850mm²）に近いというヒントがあり、2タイルパッケージではその2倍、4タイルではさらに2倍の大きさになります。フルサイズの4タイルパッケージは60x60mm程度、あるいはそれよりも少し大きいかもしれません。

では、IntelはXe HPにどのようなハードウェアを搭載しているのでしょうか？まず、各タイルには2つのHBM2eスタックが搭載されているようで、最大32GBのメモリと820GBpsの帯域幅を提供できる可能性があります。IntelがHBM2eスタックに使用しているクロック周波数や容量の詳細は不明ですが、少なくとも合計16GBは搭載されると思われます。

GPU本体について言えば、Intelは大幅に詳細な情報を提供しました。最大構成かどうかは明言していませんが、1タイル、2タイル、4タイル実装で動作するコンピューティングデモを公開しました。各タイルには512個のEUが搭載されています。これは以前から予想されていたことですが、少なくとも確認できたのは喜ばしいことです。ドライバとハードウェアはまだ初期段階ですが、クロック速度は1300MHzとの情報も確認できました。

そこからは計算は比較的簡単です。各EUには8つのFP/INT ALUパイプラインがあり、1クロックあたり1回のFMA（Fused Multiply Add）演算を実行できます。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

8 × 512 × 2 × 1.3 GHz = 10,649.6 GFLOPS

これは1タイルあたりの値なので、より大きなソリューションの場合は2倍または4倍になります。4タイル構成では理論上42.6 TFLOPSとなり、Intelのデモでは少なくともハードウェアがこの数値にかなり近い42,280.79 GFLOPSを実現できることが示唆されました。もちろん、ソフトウェアが実際にこれらの計算を実行していたのか、それとも単に偽のアニメーションだったのかは分かりませんが、今のところはこの辺にしておきます。

Xe HP GPUはFP64演算も実行可能で、FP32の半分の性能で実行できると考えられます。また、FP32ほどの精度を必要としないディープラーニングアプリケーション向けに、INT8もサポートしています。Xeアーキテクチャに関する知見に基づき、線形スケーリングを想定すると、1タイルあたり最大42.6テラオペレーション、4タイルバージョンでは170.4 TOPSのINT8演算性能を実現します。

当然のことながら、Xe HPは標準的なGPU型処理クラスターだけに焦点を当てているわけではありません。NvidiaのV100やA100（そしてGoogleのTPU、テンソル処理ユニット）と同様に、Xe HPにもテンソル型の機能が搭載されており、計算性能をさらに向上させるはずです。A100やTPU3と同様に、Xe HPはbfloat16形式もサポートしており、AI用途ではFP32と同等の精度でありながら、パフォーマンスは2倍です。（技術的には、8ビット指数のおかげで幅広い値に対応できますが、精度は7ビットに制限されています。）

Xe HPはまだ出荷準備が整っておらず、Intelはテンソル演算性能について詳細な説明をしていませんが、標準的なFP ALUが提供できる性能をさらに上回る可能性を期待するのは妥当でしょう。NvidiaのA100に匹敵するかどうかはまだ分かりませんが、Intelはエクサスケールへの野心を抱いています。本日発表された内容を踏まえると、Intelがやるべきことは、約25,000台のXe HP 4タイルノードで構成されたスーパーコンピューティングクラスターを構築するだけで、エクサスケールを実現できる可能性があります。テンソル処理が標準的なALUの8倍の速度であれば、クラスター内のXe HPノードはわずか3,000台で済むかもしれません。実にシンプルです！

しかし、エクサスケールの野望はXe HPという名称には当てはまりません。代わりに、Xe HPC（コードネームPonte Vecchio）として分類されています。以前、Ponte VecchioはIntel初の7nmプロセスを採用した製品になる予定でしたが、Intelはベースタイルに10nm SuperFin、Rambo Cacheタイルに10nm Enhanced SuperFinを採用して製造すると発表しました。ここまでは順調ですが、ここで不明瞭な点が出てきます。コンピュートタイルには「Intel next gen」が採用されますが、これはおそらく7nm、あるいは「external」を意味しており、おそらくSamsungまたはTSMCの7nmプロセスを採用すると考えられます。Xe Link I/Oタイルも外部製造を採用していると記載されています。

インテルはすでに、Foverosスタッキングを外部製造シリコンと併用できることを実証しており、2021年のAuroraスーパーコンピューターの発売までに全てを統合することが可能です。10nm SuperFin、7nm、あるいは他のプロセスを採用するにせよ、インテルはエクサスケールへの野望から一歩も引いていません。

ジャレッド・ウォルトンは、Tom's Hardwareのシニアエディターで、GPU全般を専門としています。2004年からテクノロジージャーナリストとして活躍し、AnandTech、Maximum PC、PC Gamerなどで執筆活動を行っています。初代S3 Virgeの「3Dデセラレータ」から最新のGPUまで、ジャレッドは最新のグラフィックストレンドを常に把握しており、ゲームパフォーマンスに関する質問は彼にお任せください。

Features