Intelは、近々登場するXeグラフィックス・アーキテクチャに関する詳細情報を公開しました。このアーキテクチャは、デスクトップPCのゲームやモバイル用途からデータセンターに至るまで、グラフィックスのあらゆる側面に対応するために階層型モデルで採用されます。この新しいアーキテクチャは、数千の実行ユニット(EU)まで拡張可能で、新しいRambo CacheやXEMFインターフェースなど、いくつかの新しいメモリ強化機能を備えています。
データセンターのユースケースは最先端のハイパフォーマンスコンピューティング (HPC) およびスーパーコンピューティングの領域にも該当するため、Intel は、毎年恒例のスーパーコンピューティング トレードショーの直前、コロラド州デンバーで開催される Intel HPC Developer Conference でこれらの発表を行いました。
HPC開発者会議に来たのは、Raja Koduri氏の基調講演を聞くためです。情報が明らかになり次第、さらに追加していきます。議論すべきことは山ほどあるので、早速始めましょう。
IntelのXeグラフィックス「Ponte Vecchio」アーキテクチャ
画像
1
の
8

Xeグラフィックス・アーキテクチャの最初のイテレーションは、汎用コンピューティング・ワークロード向けのIntelの新しい7nmプロセス「Ponte Vecchio」グラフィックス・カードとして登場します。このモデルはHPCとAIワークロード向けに特別に設計されています。Intelはこのカードを同社初の「エクサスケール・グラフィックス・カード」と謳っていますが、このレベルのコンピューティングには、高速で柔軟なファブリック上で複数のカードが連携して動作する必要があります。この新しいカードは、2021年にアルゴンヌ国立研究所のAuroraスーパーコンピュータに搭載され、世界初のエクサスケール級スーパーコンピュータとしてデビューする予定です。
IntelはXeアーキテクチャを3つの設計に分割し、それぞれ異なるセグメントに対応しています。データセンター、コンシューマー向けグラフィックスカード、AIユースケース(HP)、プロセッサ統合型グラフィックス(LP)、そしてハイパフォーマンスコンピューティング向けのハイティアXe HPCです。後者は特にコンピューティング向けに設計されています。ゲーミング向けのコンシューマー向けXeグラフィックスカードは、2020年におそらく10nmプロセスで主流になるでしょう。
画像
1
の
1

インテルはPonte Vecchioを7nmプロセスで製造する予定で、悪名高い10nmプロセスを超える次世代ノードへの開発が順調に進んでいることを示しています。インテルのCEO、ボブ・スワン氏は先日、プロトタイプDG1の通電試験を完了したと発表しました。このバージョンはインテルの10nmプロセスで製造される可能性が高いと考えられています。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
しかし、Intelはグラフィックスカードに単一の大型モノリシックダイを採用するというグラフィックス業界のトレンドには追随せず、ファブリックを介して複数のコンピューティングユニットを連結したMCM(マルチチップモジュール)設計を採用します(上の画像をご覧ください)。Intelがグラフィックスのワークロードを複数のチップに分散させることを考えると、複数のGPUをサポートするXe Graphicsドライバーが最近登場したことは、全く新しい意味を持ちます。これらのドライバーは、各ディスクリートGPU内のマルチダイアーキテクチャに対応するための重要なコンポーネントとして機能すると考えられます。
Ponte VecchioがIntel初の7nm製品として登場したことは、Intelの既存の標準から大きく逸脱しているとはいえ、理にかなっています。GPUには多くの繰り返し構造があり、本質的に欠陥が容易に許容されます。クリティカルパスウェイなどの一部の領域に冗長性を設計に組み込むことで、ノードの初期リビジョンでダイを製造する際のリスクをさらに軽減できます。また、Intelが小型チップレットを採用し、歩留まりを向上させていることも注目に値します。
これらのモジュールは、Intelの最新パッケージング技術、例えばFoveros 3Dチップパッケージング技術を採用しています。これは3D積層ダイ設計で構成されており、I/Oなどの非演算要素に大規模なプロセスノードを使用したり、CPU、GPU、AIプロセッサを自由に組み合わせたりすることが可能になります。また、HBMパッケージと演算ダイを接続するEMIB(Embedded Multi-Die Bridge)技術(詳細はこちら)も採用されます。
画像
1
の
6

カードは数千の実行ユニット(EU)まで拡張できますが、もちろんそれらは単一のチップレットには収まりきりません。Intel によれば、各 EU は倍精度浮動小数点パフォーマンスを 40 倍向上させます。
新しくスケーラブルなXEMF(XEメモリファブリック)は、ユニット(コンピューティングとメモリ)をコヒーレントなメモリインターフェースで結び付け、Intelによると、このファブリックは数千のXeノードまで拡張可能とのことです。Foverosテクノロジーと統合された大規模な統合型「Rambo」キャッシュは、Koduri氏が「GPUとCPUの両方で同時に利用できる膨大なメモリ帯域幅」と呼ぶものを提供します。
これらのカードは、SIMT(GPU)とSIMD(CPU)の両方のベクトル幅をサポートしており、SIMTとSIMDを同時に処理することで最大限のパフォーマンスを実現できます。SIMD処理の搭載により、データセンターアクセラレータにAVXタイプの処理機能が追加されます。これは、後ほど説明するOneAPIを介してコードの移植性を高めるための動きであると考えられます。
インテルは、SIMD処理を全面的に採用したLarabeeの開発実績から、GPU SIMD処理向けのIPを豊富に保有していると考えられます。この2つのアプローチを融合することで、インテルは2つの処理技術を巧みに融合させることができます。両方の処理を同時に実行できることは、大きなメリットです。
画像
1
の
3

Intel は、チップレットあたりの実行ユニットの数やクロック速度など、グラフィック カードの主要な仕様をまだ明らかにしていませんが、EMIB 接続により、コンピューティング ダイと HBM メモリ間の比較的短い距離で、可能な限り最速のデータ転送速度と最高の電力効率が実現されます。
Intelはまた、これらのカードがIntelブランドの「Xe Link」実装におけるCompute Express Link(CXL)インターコネクトを使用することも明らかにしました。この実装は、グラフィックスカード上の多数のユニットとCPU間のメモリコヒーレンスを確保します。これは、CXLインターフェースに必要な複数のコンピューティングパッケージを接続するファブリックの中心に位置する小型SoCによって支えられています。メモリコヒーレンスにより、実際のコンピューティングワークロードよりも多くの時間とエネルギーを消費することが多いデータ転送が削減されます。
最も重要なのは、CXLインターフェースはPCIe 5.0接続を必要とするため、Ponte Vecchioは新しい規格を採用するということです。以前の情報によると、CXL搭載デバイスはCXLインターフェースと標準PCIeインターフェースの両方で通信できますが、Intelがこのデュアル機能をどのように階層化するかはまだ明らかではありません。つまり、コンシューマーレベルのゲーミンググラフィックスカードでは、少なくとも外部インターフェースとしては、CXLインターフェースが採用されない可能性があります。代わりに、これらのカードはPCIe 5.0インターフェースでのみ動作する可能性があります。
PCIe 5.0インターフェースは、Auroraスーパーコンピューター向けカードと並行して導入される予定のSapphire RapidsデータセンターチップのIntelの計画とよく一致しています。リーク情報によると、これらのチップはPCIe 5.0とDDR5を搭載し、Intelは本日、これらのチップが2021年に発売されることを明らかにしました(詳細は後述)。
Ponte Vecchioの演算ユニットは、データ並列ベクトル行列エンジンと、非公開の高帯域幅メモリ(HBM)の派生型で構成され、高速な倍精度浮動小数点スループットを実現するように設計されています。Intelはまた、メモリとキャッシュのECCなど、Xeon CPUラインナップから着想を得た多くの新しいRAS(信頼性、可用性、保守性)機能も搭載しています。
Aurora スーパーコンピューターの Intel Xe Ponte Vecchio グラフィックス
Xe Graphics アーキテクチャと Intel のホスト プロセッサが Aurora スーパーコンピュータに採用されるという DOE と Intel の発表は、同社にとって大きな勝利となりました。特に、Intel の主要な「データ センター隣接性」の 1 つとして機能する Optane DC パーシステント メモリ DIMM の「将来世代」も結び付けられたためです。
当初の発表では詳細はほとんど語られませんでしたが、Aurora が世界初のエクサスケール スーパーコンピュータとなり、2021 年に提供されることはわかっています。これは実際には、Intel が Xeon Phi Knights Hill プロセッサで 2018 年の設計目標を達成できなかったことで有名になり、現在は廃止されている Aurora 設計の 2 回目の反復となります。
画像
1
の
3

インテルは本日、2基のSapphire Rapidsプロセッサと6基のPonte Vecchioグラフィックユニットを組み合わせたノードアーキテクチャを公開しました。各カードには16個のコンピューティングユニットが搭載されます。
ここで鍵となるのはデータスループットです。そのため、ノード内にオールツーオールアーキテクチャを採用し、ノードあたり8つのファブリックエンドポイントを介してコンピューティングユニットへのデータ配信を保証します。この方式では、CXLインターフェースを組み合わせることで、グラフィックスカードのHBM、Sapphire Rapidsプロセッサ、システム内のDRAM(容量は非公開)、Optane Persistent DIMMなど、すべてのメモリ層間で統合メモリプールを構築します。
システム全体は200台以上のサーバーラックで構成される予定ですが、Intelはラックサイズが1Uか2Uかを明らかにしていないため、数字をリバースエンジニアリングしてサーバーノードの数を特定することは不可能です。全体として、このシステムは230ペタバイトのストレージと10ペタバイト以上のメモリを搭載する予定です。
インテルデータセンターロードマップ

インテルがロードマップを公開していないことは、顧客にとって長年の悩みの種でした。特に10nmノードへの移行が失敗したことを考えると、インテルの将来計画に対する信頼は薄れており、顧客はそれを懸念していました。同社は今回のイベントで新たなロードマップを発表しました。これは2018年に発表したロードマップのアップデート版です。
新たなロードマップでは、Sapphire Rapidsプロセッサが2021年に登場することが確認されていますが、プロセスノードなど、その他の詳細は明らかにされていません。Intelが2021年にPonte Vecchioに7nmプロセスを採用することを考えると、データセンター向けプロセッサも同じプロセスノードを採用すると推測できます。Intelによると、これらのチップはスケールアップとスケールアウトの両方の実装において、かつてないほどのスケーラビリティを提供するとのことです。
前述の通り、非常に信憑性の高いリーク情報(Huaweiからの情報)によると、Sapphire RapidsはPCIe 5.0をサポートし、8チャネルDDR5メモリを搭載するとのこと。これらのチップはEagle Streamプラットフォームに組み込まれる予定です。
インテル OneAPI
画像
1
の
7

この根本的に新しいアーキテクチャを使用するには特殊なコーディングが必要となるため、インテルとDOEは同社の新しいOneAPIプログラミングモデルを採用しています。これは、インテルがGPU、CPU、FPGA、AIアクセラレーター全体のプログラミングを簡素化するために設計したものです。このソフトウェアのキャッチフレーズは「トランジスタを一つも残さない」であり、その目標を考えると、まさにその通りです。
OneAPIは、アプリケーションがIntelの異なる種類のコンピューティング環境間でシームレスに移動できるようにする統合ライブラリを提供します。成功すれば、これは他社がこれほど多様なコンピューティング環境を提供することができない重要な差別化要因となる可能性があり、DOEによる支援はIntelの長期目標達成の鍵となります。興味深いことに、OneAPIは他社のハードウェアにも対応しており、長年の独自ソリューションの採用という伝統とは対照的に、業界標準のインターフェースとモデルを推進するというIntelの考え方の変化における、新たなマイルストーンとなります。
Intelは、このソフトウェアは「パフォーマンスを損なうことなく選択肢を提供し、個別のコードベース、複数のプログラミング言語、そして異なるツールやワークフローの複雑さを排除する」ことを目的として設計されていると述べています。oneAPIは既存の言語をサポートすることで既存のソフトウェア投資を保護しながら、開発者が汎用性の高いアプリケーションを開発できる柔軟性を提供します。このソフトウェアは現在、Intel Developer Cloudでパブリックベータ版として提供されています。IntelはCUDAコードをOneAPIに変換する移行ツールも開発しており、CUDAプログラミング言語がNVIDIAの主要な防御壁となっていることから、これはNVIDIAへの明確な警告と言えるでしょう。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。