94
Intel HPC ロードマップ: 800W Rialto Bridge GPU、Falcon Shores XPU、Ponte Vecchio と HBM ベンチマーク

画像

1

2

スーパーコンピュータのロードマップ
(画像提供:Intel)

インテルは、国際スーパーコンピューティング会議(ISC)における基調講演で、2027年までにゼタスケールクラスの性能を実現するという困難な目標に向けた新たなロードマップを発表しました。上記のインテルのスーパーコンピューティングシリコンロードマップからもわかるように、本日の発表には、まだ発売されていないPonte Vecchio GPUの次世代となるRialto Bridge GPUに関する最初の詳細情報が含まれています。Rialto BridgeデータセンターGPUは、新しいプロセスノードで製造された最大160個のコアを搭載し、明らかに大幅に改良されたアーキテクチャを採用し、最大800Wで動作し、アプリケーションのパフォーマンスが最大30%向上します。サンプル出荷は2023年半ばに開始されます。

さらに、IntelはFalcon Shores XPUの詳細を発表しました。このチップは、x86コア、GPUコア、メモリなど、様々な数のコンピューティングタイルを搭載し、多様な構成が可能です。Intelは、CPUとGPUの製品ラインをこの単一のコンポーザブル製品に統合し、2024年に2つのラインナップを1つに統合する予定です。

AMDのMilan-Xプロセッサに対抗すべく、市場投入が進むIntelのHBM搭載Sapphire Rapidsサーバーチップの初ベンチマークも公開されました。Intelは、メモリスループットが制限されるアプリケーションにおいて、これらのチップはIce Lake Xeonの前身となるチップの最大3倍の性能を発揮すると主張しています。

インテルのゼッタスケール目標の達成には、一連の進歩が必要であり、その多くは革新的なものです。本日、インテルは短期的な目標の一部を発表するとともに、ゼッタスケールの構成要素となるロードマップを用いて、より広範な長期計画の概要を示しました。それでは、発表内容について詳しく見ていきましょう。 

Intel Rialto Bridge GPU および XPU マネージャー

画像

1

9

リアルト橋
(画像提供:Intel)

インテルは、エンタープライズクラスの GPU にイタリアの橋にちなんで命名することを堅持しており、現行世代の Ponte Vecchio に続いて、2023 年に市場投入されるインテルの次世代データセンター GPU である Rialto Bridge が続く。インテルは、このチップには最大 160 個の Xe コアが搭載され、Ponte Vecchio の 128 個のコアから大幅に増加することを明らかにした。

上で見てきたように、Ponte Vecchio の設計では、チップの中央に沿って 2 つのバンクに配置された合計 16 個のコンピューティング タイル (タイルあたり 8 個のコア) で構成されていましたが、Rialto Bridge では、(おそらく) タイルあたり 20 個の Xe コアを持つ 8 個の長いタイルのみがあり、設計の大きな変更が示されています。

Ponte VecchioのRambo Cacheタイルは削除されていますが、コアの両側には未知のフレーバーのHBMタイルが8枚残っており、チップパッケージの反対側の角にはXe Linkタイルが2枚配置されています。違いを分かりやすくするために、上記のアルバムの最後の6枚の画像には、現世代のPonte Vecchio設計のブロック図が含まれています。

Rialto Bridgeには、より新しい未指定のプロセスノードが搭載されていますが、Intelはどのコンポーネントがアップグレードされるかを明らかにしていません(おそらく、すべてが新しいノードに移行するでしょう)。現在、IntelはPonte Vecchioのベースタイルとキャッシュに「Intel 7」ノード、コンピューティングタイルにTSMC 5nm、Xe LinkタイルにTSMC 7nmを使用しています。

Rialto Bridgeには、「ティック」に似た、詳細不明のアーキテクチャ強化機能も搭載されており、Ponte Vecchioと比較してアプリケーションのパフォーマンスが最大30%向上します。Intelはこの主張を裏付けるベンチマーク結果をまだ提供しておらず、これらの向上が同じクロック/消費電力エンベロープで実現されているかどうかは不明です。しかし、この30%の予測値はコア数の25%増加とほぼ一致しており、IPCの大幅な向上は期待できないと考えられます。  

Intelによると、Rialto Bridgeのピーク消費電力は800Wで、Ponte Vecchioの600Wを上回っています。Rialto BridgeはOpen Accelerator Module(OAM)フォームファクターで提供されます。IntelはOAM 2.0仕様を採用しますが、他のフォームファクターでも引き続きGPUを提供するとしています。Rialto BridgeはPonte Vecchioのパッケージと互換性があるため、ドロップインアップグレードが可能です。

さらに同社は、データセンターGPU向けのオープンソース監視・管理ソフトウェア「XPU Manager」をまもなくリリースする予定です。このソフトウェアは、ローカルとリモートの両方で使用できます。Intelはこの新型GPUについて、「FLOPsの向上」、「I/O帯域幅の拡大」、「GT/sの向上」といった漠然とした説明しかせず、新設計の詳細は全く明らかにされていません。しかし、スライドにはIDM 2.0のリストが掲載されており、Rialto Bridgeタイルの一部については引き続きファウンドリパートナーを利用することが示唆されています。しかし、Rialto Bridgeは2023年にリリースされる予定なので、近いうちに詳細が明らかになるでしょう。

インテル ファルコンショアーズ XPU

画像

1

2

ファルコンショアーズ
(画像提供:Intel)

IntelのFalcon Shores XPUは、同社のヘテロジニアス・アーキテクチャ設計の延長線上にある製品であり、最終目標は既存のサーバーチップと比較して、ワット当たり性能5倍、x86ソケットでの演算密度5倍、そしてメモリ容量と帯域幅5倍の実現です。IntelのCPUとGPUのロードマップはFalcon Shoresに集約されており、将来的にはこれらのチップが両方の役割を果たすことを示唆しています。これは非常に大きな賭けですが、Intelは数年にわたりこの種のパラダイムシフトのための技術基盤を構築してきたため、必要なツールは揃っています。

この分散型チップ設計では、x86コンピューティングコアとGPUコアが別々のタイルに分かれているが、Intelはこれらのタイルを使って、CPUのみのモデル、GPUのみのモデル、あるいは両者の混合比率など、2つのコアを任意に組み合わせたモデルを作ることができる。Intelは具体的には明言していないが、x86コアタイルにパフォーマンスコア(Pコア)と効率コア(Eコア)が独自に混在することも考えられる。あるいは、PコアとEコアのクラスターがそれぞれ独立したタイルとして展開される可能性もある。Intelによると、これらのタイルは未特定のオングストローム世代のプロセスノードで製造されるという。ただし、Intelの20Aは、自社で製造できるタイルとしては要件を満たしているようだ。

Falcon Shoresには、さまざまな種類のHBMメモリとネットワーク添加剤用の小型タイルが搭載されます。CPU、GPU、メモリ、ネットワーク機能の比率が柔軟であるため、Intelは設計プロセスの後期に特定のワークロードまたは新しいワークロードに合わせてFalcon Shores SKUを迅速に調整できます。これは、AI / ML分野の状況が急速に変化する中で重要な考慮事項です。Intelは、顧客がタイルを組み合わせて独自の好みの組み合わせを作成できるようにするかどうかを明言していませんが、これは、独自のIPのライセンスを取得し、他社向けのチップも製造する同社のIntel Foundry Services(IFS)アプローチに適合します。また、資金が適切であれば、FPGAやASICなどの他の種類のタイルが設計に取り入れられることも想像に難くありません。

上記アルバムの 2 番目のスライドには、x86 コンピューティング コアと Xe GPU コアを備えた 4 つのタイルの設計のさまざまな組み合わせと、メモリとネットワーク チップを搭載していると思われる 4 つの小さなタイルが示されています。

当然のことながら、この設計により、IntelはIDM 2.0モデルを活用できるようになります。これにより、特定の機能については自社でタイルを製造しつつ、一部のタイルについてはサードパーティのファブやIPプロバイダーと契約し、組み合わせて利用することが可能になります。これにより、自社のオングストローム級プロセスノード技術、あるいはサプライヤーの技術における製造上の潜在的な問題を回避できる可能性があります。さらに、ここでチップレットのUCIeエコシステムを活用することで、Intelは業界最高のメモリおよびネットワーク関連技術にアクセスできるようになるでしょう。

インテルは次世代の高度なパッケージング技術を活用し、統合された一つのユニットに統合されるタイル間の「極めて高い」帯域幅を実現します。しかし、これらのチップが、3Dスタック型のFoverosチップのように(アクティブ?)インターポーザーを搭載するのか、また、タイルの接続にインテルの幅広い相互接続技術のどの種類を採用するのかは不明です。インテルはパッケージング技術に多額の投資を行っており、その成果がここでも得られることを期待しています。

Falcon Shoresは、Intelが「CPUのような」プログラミング体験を実現すると述べている簡素化されたプログラミングモデルを搭載します。これはおそらく同社のOneAPIポートフォリオに基づいていると思われます。Intelはこの製品の市場投入を2024年頃と見込んでいます。

Intel Sapphire Rapids HBM ベンチマーク

画像

1

6

サファイアラピッズ
(画像提供:Intel)

Intelは、HBM2を搭載した第4世代Sapphire Rapids Xeonプロセッサのベンチマークを公開しました。このプロセッサは、メモリスループットが制限されるワークロードでのパフォーマンスを向上させるため、最大64GBのHBM2eメモリを搭載していることが分かっています。ベンダーが提供する他のベンチマークと同様に、これらの結果は鵜呑みにしないでください。上記のアルバムの最後にテストノートを掲載しました。

Intel は、Nvidia が最近 Grace CPU の Intel に対する性能向上を宣伝するために使用した気象予報モデル ベンチマークである WRF において、自社の Ice Lake Xeon 8380 チップに比べて 2 倍以上のパフォーマンス向上が達成されたと主張している。

その他の注目すべき点としては、YASKエネルギーベンチマークで3倍以上の性能向上、OpenFOAMで2倍の性能向上、CloverLeaf Eulerソルバーで3倍以上の性能向上が挙げられます。また、IntelはAnsysのFluentソフトウェアで2倍の速度向上、ParSeNetで2倍の性能向上も達成したと主張しています。

Intelは、HBM搭載のSapphire Rapidsを今年中に発売すると発表しました。標準のSapphire Rapidsモデルはまだ一般市場に出回っていないため、今後の動向は不透明です。 

インテルのゼッタスケール・ビルディング・ブロック

ゼッタスケール

(画像提供:Intel)

インテルがエクサスケール時代からゼッタスケール時代へと前進させようとする試みは、2027年という野心的な目標を掲げていることを考えると、多くの課題を伴います。特に、同社がまだエクサスケールクラスのAuroraスーパーコンピュータをリリースしていないことが課題となっています。現時点では、エクサスケールの王者はAMDのFrontierスーパーコンピュータだけです。ゼッタスケールへの移行には、1000倍の性能向上と、新しいプロセスノード技術、アーキテクチャ、メモリ、パッケージング技術、そしてそれらすべてをつなぐネットワーク技術が必要になります。

インテルは、コンピューティングの次のレベルに到達するために必要だと考えるいくつかの進歩を明らかにしました。その中でも、Universal Chiplet Interconnect Express(UCIe)仕様が中心的なものです。UCIeは、オープンソース設計によるチップレット間のダイ間相互接続を標準化することで、コストを削減し、検証済みチップレットのエコシステムを拡大することを目指しています。さらに、UCIe規格は、USB、PCIe、NVMeといった他の接続規格と同様にユビキタスかつユニバーサルであることを目指しつつ、チップレット接続において卓越した電力と性能メトリクスを提供します。この相互接続により、インテルはネットワーク、メモリ、その他の付加機能において、業界最高のIPにアクセスできるようになります。  

将来のスーパーコンピュータの中には、膨大な電力需要を満たすためにモジュール型原子炉を必要とするものもあり、消費電力が懸念事項であると言うのは控えめな表現に過ぎません。インテルはまた、ビットコインマイニング向けブロックスケールASICで初めて採用した超低電圧技術を拡張し、クロック負荷電圧を50%低減することで消費電力を大幅に削減する計画です。これにより高性能チップの消費電力が削減され、最終的には熱負荷が軽減され、冷却が簡素化されます。トランジスタへの電力供給を裏面から行うインテルのPowerVia技術も、重要な進歩の一つです。

インテルは、より小型のパッケージでより高いスループットを実現する新しいメモリを研究しており、帯域幅の増加に対応するために光インターコネクトをパッケージに組み込むことを想定しています。光ネットワークは、チップ間リンクとダイ間リンクの両方に使用できるだけでなく、ネットワークシナリオにおいて既成概念にとらわれない拡張性も備えています。インテルのXe Linkは、光インターコネクトを活用することで、帯域幅と帯域幅密度を向上させ、消費電力を削減できる可能性があります。インテルが2027年までにゼタスケールのコンピューティング能力を実現するという目標を達成するには、これらすべての要素とその他の要素が不可欠です。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。