Nvidiaが144コアのGrace CPUスーパーチップを発表、ArmチップはAMDのEPYC Romeより1.5倍高速と主張

GTC 2022で、NvidiaのCEOであるジェンスンフアン氏は、データセンター向けに設計された同社初のCPUのみのArmチップである、新しい144コアのGrace CPUスーパーチップを発表し、同社のArmへの取り組みについてようやく詳細を明らかにしました。NeoverseベースのシステムはArm v9をサポートし、Nvidiaの新しいブランドのNVLink-C2C相互接続技術で融合された2つのCPUとして提供されます。Nvidiaは、Grace CPUスーパーチップは、SPECベンチマークで、自社のDGX A100サーバーに搭載されている前世代の64コアAMD EPYCプロセッサー2つと比較して1.5倍のパフォーマンスを提供し、今日の主要なサーバーチップの2倍の電力効率を提供すると主張しています。全体として、Nvidiaは、Grace CPUスーパーチップがハイパースケールコンピューティング、データ分析、科学計算などの幅広いアプリケーション向けに2023年初頭に出荷されれば、市場で最速のプロセッサーになると主張しています。

Armのロードマップから判断すると、Hopper CPUスーパーチップはArm v9をサポートする最初のプラットフォームであるN2 Perseusプラットフォームをベースとしています。このプラットフォームは5nm設計で、PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0、CXL 2.0といった最新の接続技術をすべてサポートし、V1プラットフォームと比較して最大40%のパフォーマンス向上を実現します。

さらに、Nvidiaは、以前発表したCPU + GPUチップであるGrace Hopper Superchipに関する新たな詳細を共有しました。Nvidiaはまた、メモリコヒーレンシをサポートするダイツーダイおよびチップツーチップ相互接続である新しいNVLink Chip-to-Chip（C2C）インターフェイスも発表しました。NVLink-C2Cは、Nvidiaが現在使用しているPCIe 5.0 PHYと比較して最大25倍のエネルギー効率と90倍の面積効率を実現し、最大900GB/s以上のスループットをサポートします。このインターフェイスは、CXLやArmのAMBA CHIなどの業界標準プロトコルをサポートし、PCBベースの相互接続からシリコンインターポーザ、ウェハスケール実装まで、さまざまな接続をサポートします。驚くべきことに、Nvidiaは現在、他のベンダーが独自のチップレットにこの設計を使用することを許可しています。さらに、Nvidiaは新しいUCIe仕様をサポートすると発表しました。それでは、詳細を見ていきましょう。

Nvidia Grace CPU スーパーチップ

新しいGrace CPUスーパーチップについてお話する前に、その最初のバージョンについて簡単におさらいしておきましょう。NVIDIAは昨年、当初Grace CPUと呼んでいたこのチップを発表しましたが、詳細な情報はあまり公開していませんでした。そして今回、この最初のチップの名称をGrace Hopperスーパーチップに変更しました。

Grace Hopperスーパーチップは、CPUとGPUという2つの異なるチップを1つのキャリアボード上に搭載しています。CPUは72コアで、Arm v9をサポートするNeoverseベースの設計を採用し、Hopper GPUとペアリングされていることが判明しています。これら2つのユニットは、CPUとGPU間のメモリコヒーレンスを確保する900GBpsのNVLink-C2C接続を介して通信し、両方のユニットがLPDDR5X ECCメモリプールに同時にアクセスできるようにします。このメモリプールは、標準システムと比較して30倍の帯域幅向上を実現しているとされています。

NVIDIAは当初、この設計に使用されているLPDDR5Xの容量を発表していませんでしたが、今回発表された「600GBメモリGPU」にはLPDDR5Xメモリプールが含まれていることが確実です。LPDDR5Xはパッケージあたり最大64GBなので、CPUには最大512GBのLPDDR5Xが搭載されていることになります。一方、Hopper GPUは通常80GBのHBM3容量を備えているため、NVIDIAの600GBという数字に近い値となります。GPUにこれだけのメモリ容量へのアクセスを与えることは、特に適切に最適化されたアプリケーションなど、一部のワークロードに劇的な効果をもたらす可能性があります。

Nvidia Grace CPU スーパーチップ — （画像提供：Nvidia）

本日発表されたGrace CPUスーパーチップは、Grace Hopper CPU+GPU設計をベースにしていますが、Hopper GPUの代わりに2つ目のCPUパッケージを搭載しています。これら2つの72コアチップはNVLink-C2C接続で接続され、900GB/秒のコヒーレント接続を実現することで、1つの144コアユニットとして統合されています。さらに、Arm v9 Neoverseベースのこのチップは、AVXに類似した機能を持つパフォーマンス向上SIMD命令であるArmのScalable Vector Extensions（SVE）をサポートしています。

Grace CPUスーパーチップはArm v9を採用しており、これはこのチップがNeoverse N2設計を採用していることを示しています。Neoverse N2設計については、こちらで詳細をご覧いただけます。Neoverse N2プラットフォームは、SVE2やメモリタギングといった新たに発表されたArm v9拡張機能をサポートするArm初のIPであり、V1プラットフォームと比較して最大40%のパフォーマンス向上を実現します。N2 Perseusプラットフォームは、PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0、CXL 2.0をサポートする5nm設計で提供されます。Perseus設計は、電力（ワット）あたりの性能と面積あたりの性能に最適化されています。

Grace CPUスーパーチップは、2つのCPUとオンボードメモリを合わせて最大500Wの電力を消費することを考えると、これは十分に理にかなっています。これは、チップあたり最大280W（メモリ消費電力は含まない）のAMD EPYCなど、他の主要CPUと競合できるレベルです。NVIDIAは、Grace CPUは市場投入時には競合CPUの2倍の効率になると発表しています。

各CPUはそれぞれ8つのLPDDR5Xパッケージにアクセスできるため、2つのチップは標準的なNUMAのようなニアメモリとファーメモリの影響を受けます。しかし、2つのチップ間の帯域幅が拡大することで競合が減り、レイテンシも低減されるはずで、非常に効率的なマルチチップ実装が可能になります。このデバイスには396MBのオンチップキャッシュも搭載されていますが、これが片方のチップに搭載されているのか、それとも両方のチップに搭載されているのかは不明です。

Grace CPU Superchipメモリサブシステムは最大1TB/sの帯域幅を提供します。NVIDIAによると、これはCPUとしては初であり、DDR5メモリをサポートする他のデータセンタープロセッサの2倍以上の帯域幅です。LPDDR5Xは1TBの容量を提供する16個のパッケージで提供されます。さらにNVIDIAは、GraceがLPDDR5X初のECC実装を採用していることを指摘しています。

さて、ベンチマークの話に移りましょう。Nvidiaは、Grace CPUスーパーチップは、SPECrate_2017_int_baseベンチマークにおいて、同社のDGX A100システムに搭載されている2つの前世代64コアEPYC Rome 7742プロセッサと比較して1.5倍高速であると主張しています。Nvidiaはこの主張を、Grace CPUのスコアが740以上（チップあたり370）になると予測するプレシリコンシミュレーションに基づいています。データセンターにおける現在のパフォーマンスリーダーであるAMDの現世代EPYC Milanチップは、SPEC結果が382から424の範囲にあるため、ハイエンドのx86チップが依然としてトップの座を維持することになります。しかし、Nvidiaのソリューションには、電力効率やGPUに優しい設計など、他にも多くの利点があります。

2つのGrace CPUは、NVIDIAの新しいNVLinkチップツーチップ（C2C）インターフェースを介して通信します。このダイツーダイおよびチップツーチップの相互接続は、低レイテンシのメモリコヒーレンスをサポートし、接続されたデバイスが同じメモリプールで同時に動作することを可能にします。NVIDIAは、エネルギー効率と面積効率を重視し、SERDESとLINKの設計技術を用いてこのインターフェースを開発しました。

NVIDIAによると、NVLink-C2Cは、NVIDIAが現在使用しているPCIe 5.0 PHYと比較して、最大25倍のエネルギー効率と90倍の面積効率を実現し、最大900GB/s以上のスループットをサポートします。さらに、このインターフェースは、CXLやArmのAMBA Coherent Hub Interface（CHI）などの業界標準プロトコルをサポートしています。また、PCBベースのインターコネクトからシリコンインターポーザー、ウェーハスケール実装まで、様々な接続タイプをサポートしています。

AMBA CHIのサポートは重要であり、NeoverseはArmのCoherent Mesh Network（CMN-700）をサポートしています。CMN-700は、CCIX、CXL、PCIeといった業界標準プロトコルの組み合わせにより、DDR、HBM、各種アクセラレータ技術といった他のプラットフォームデバイスとのインテリジェントな高帯域幅・低レイテンシインターフェースを備えたN2設計を統合します。この新しいメッシュ設計は、シングルダイ設計とマルチチップ設計の両方に基づく次世代Armプロセッサのバックボーンとして機能します。プロトコルの詳細については、こちらをご覧ください。

Nvidiaは、Intel、AMD、Arm、TSMC、Samsungといった業界の大手企業がサポートする新しいチップレット相互接続規格UCIeをサポートすることも発表しました。この標準化されたダイツーダイ相互接続は、オープンソース設計のチップレット間の通信を可能にすることで、コスト削減と、検証済みチップレットのより広範なエコシステムの促進を目指しています。UCIe規格は最終的に、USB、PCIe、NVMeといった他の接続規格と同様にユビキタスで普遍的な規格を目指しつつ、チップレット接続において卓越した電力と性能を提供することを目指しています。Nvidiaがこの新しい取り組みをサポートしていることは、理論的には、将来的にNvidiaのCPUチップレットが競合チップ設計と同じパッケージに搭載される可能性を示唆しています。

NVLink-C2Cは、GPU、CPU、SOC、NIC、DPUを含むNVIDIAのすべてのシリコンに適用されるようになります。NVIDIAはまた、他社がチップレット設計にNVLinkを使用できるように仕様をオープン化すると述べています。これにより、顧客はUCIeインターフェースまたはNVLinkのいずれかを選択できるようになります。ただし、NVIDIAはNVLink-C2CがUCIeよりも低レイテンシ、高帯域幅、優れた電力効率に最適化されていると主張しています。

画像

の

上の図に示すように、Grace Hopper Superchip および Grace CPU Superchip システムは、最大8基のHopper GPUを搭載した様々な構成で組み合わせることができます。これらの設計では、内蔵PCIe 5.0スイッチを介してNVLink通信を可能にするNVIDIAのConnectX-7 SmartNIC (CX7) が採用されており、より広範なシステム間アプリケーションをサポートします。

NVIDIAは、Grace CPUスーパーチップの導入によりターゲット市場を拡大し、ハイパースケールコンピューティング、クラウド、データ分析、HPC、AIワークロードを網羅することで、汎用サーバー市場を効果的にターゲットとしています。Grace CPUスーパーチップは、NVIDIAのCUDAスタック全体をサポートし、NVIDIA RTX、NVIDIA AI、HPC、Omniverseなど、NVIDIAのあらゆるアプリケーションを実行できます。チップの出荷は2023年上半期に開始されます。

Nvidia は、アーキテクチャに関するより詳細な情報を提供するホワイトペーパーを近日中に公開する予定であると述べており、私たちはそれを注視していきます。

GTC 2022 基調講演のスライド全文にご興味のある方は、以下をご覧ください。

画像

の

102