Nvidia、Grace Hopper CPUスーパーチップの設計詳細を発表：4N TSMCプロセスで144コア

NVIDIAは、来週開催されるHot Chips 34でのプレゼンテーションに先立ち、Grace CPUスーパーチップに関する新たな詳細を発表し、同チップが4Nプロセスで製造されることを明らかにしました。また、アーキテクチャとデータファブリックに関する詳細情報に加え、パフォーマンスと効率性に関するベンチマーク結果も公開しました。NVIDIAはHot Chipsでまだ公式プレゼンテーションを行っておらず、詳細はセッション終了後に追加する予定です。しかし、本日発表された情報は、Graceチップとサーバーが2023年前半に市場投入される見通しを大まかに示しています。

簡単におさらいすると、Nvidia の Grace CPU は、同社初のデータセンター向けに設計された CPU のみの Arm チップであり、1 つのマザーボード上に 2 つのチップ (合計 144 個のコア) として搭載されています。一方、Grace Hopper スーパーチップは、Hopper GPU と Grace CPU を同じボード上に組み合わせています。

最も重要な情報の一つとして、NVIDIAはついにGrace CPUがTSMC 4Nプロセスを採用していることを公式に認めました。TSMCは「N4」4nmプロセスを5nmノードファミリーに含め、5nmノードの拡張版と説明しています。NVIDIAは、このノードの特殊なバリアントである「4N」を採用し、GPUとCPU向けに最適化されています。

Nvidia Grace Hopper CPU アーキテクチャ

Nvidia の新しい Nvidia Scalable Coherency Fabric (SCF) は、Arm Neoverse コアで使用される標準の CMN-700 Coherent Mesh Network に非常によく似たメッシュインターコネクトです。

Nvidia SCF は、CPU コア、メモリ、I/O などのさまざまな Grace チップユニット間で 3.2 TB/秒の双方向帯域幅を提供します。また、チップをマザーボード上の他のユニット (別の Grace CPU や Hopper GPU) に接続する NVLink-C2C インターフェイスも提供します。

画像

の

メッシュは72コア以上をサポートし、各CPUは合計117MBのL3キャッシュを備えています。NVIDIAによると、上のアルバムの最初のブロック図は「説明のための可能なトポロジ」であり、その配置は2番目の図と完全には一致していません。

この図は、L3キャッシュスライス（詳細はプレゼンテーションで説明します）と思われる8つのSCFキャッシュパーティション（SCC）と、8つのCPUユニット（コアのクラスターのように見える）を備えたチップを示しています。SCCとコアは2つずつグループ分けされてキャッシュスイッチノード（CSN）に接続され、CSNはSCFメッシュファブリック上に配置されて、CPUコアとメモリ間のインターフェースをチップの残りの部分に提供します。SCFは、Coherent NVLinkを介して最大4つのソケット間のコヒーレンシもサポートします。

Nvidiaはまた、各Grace CPUが最大68本のPCIeレーンと最大4本のPCIe 5.0 x16接続をサポートすることを示す図も公開しました。各x16接続は最大128GB/sの双方向スループットをサポートします（x16リンクは2つのx8リンクに分岐可能）。また、16個のデュアルチャネルLPDDR5Xメモリコントローラー（MC）も搭載されています。

しかし、この図は最初の図とは異なります。L3キャッシュがクアッドコアCPUクラスターに接続された2つの連続したブロックとして示されています。これは前の図よりもはるかに分かりやすく、チップ内のコア数は合計72個です。ただし、最初の図にあった個別のSCFパーティションやCSNノードは表示されていないため、少し混乱を招きます。この点はプレゼンテーション中に確認し、必要に応じて更新します。

NVIDIAは、スケーラブル・コヒーレンシ・ファブリック（SCF）は自社設計であるとしていますが、Armはパートナー企業に対し、コア数やキャッシュサイズ、DDR5やHBMといったメモリの種類、PCIe 5.0、CXL、CCIXといったインターフェースの選択など、CMN-700メッシュのカスタマイズを許可しています。つまり、NVIDIAはオンダイ・ファブリックに高度にカスタマイズされたCMN-700実装を使用している可能性があるということです。

Nvidia Grace Hopper 拡張 GPU メモリ

画像

の

GPUはメモリスループットを重視するため、Nvidiaは当然のことながら、チップ内だけでなくCPUとGPU間のメモリスループット向上にも注力しています。Grace CPUは16個のデュアルチャネルLPDDR5Xメモリコントローラーを搭載し、合計32チャネルで最大512GBのメモリと最大546GB/sのスループットをサポートします。Nvidiaによると、容量やコストなど複数の要因からHBM2eではなくLPDDR5Xを選択したとのことです。また、LPDDR5Xは標準的なDDR5メモリと比較して帯域幅が53%広く、GBあたりの消費電力は1/8であるため、総合的に見て優れた選択肢となっています。

Nvidia は、拡張 GPU メモリ (EGM) も導入しています。これにより、NVLink ネットワーク上の任意の Hopper GPU が、ネットワーク上の任意の Grace CPU の LPDDR5X メモリに、ネイティブ NVLink パフォーマンスでアクセスできるようになります。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

NVIDIAの目標は、CPUとGPU間で共有できる統合メモリプールを提供することで、プログラミングモデルを簡素化しながらパフォーマンスを向上させることです。Grace Hopper CPU+GPUチップは、共有ページテーブルを備えた統合メモリをサポートしています。つまり、チップはCUDAアプリケーションとアドレス空間とページテーブルを共有し、システムアロケータを使用してGPUメモリを割り当てることができます。また、CPUとGPU間のネイティブアトミックもサポートしています。

Nvidia NVLink-C2C

画像

の

CPUコアはコンピューティングエンジンですが、インターコネクトこそがコンピューティングの未来を決定づける戦場です。データの移動は、実際にデータを計算するよりも多くの電力を消費するため、データの移動をより高速かつ効率的に行うこと、あるいはデータ転送を一切行わないことが重要な目標となります。

1 つのボード上に 2 つの CPU を搭載した Nvidia の Grace CPU と、同じボード上に 1 つの Grace CPU と 1 つの Hopper GPU を搭載した Grace Hopper Superchip は、独自の NVLink Chip-to-Chip (C2C) 相互接続を介してユニット間のデータ転送を最大化し、メモリの一貫性を提供してデータ転送を削減または排除するように設計されています。

スワイプして水平にスクロールします

相互接続	ピコジュール/ビット (pJ/b)
NVLink-C2C	1.3 pJ/b
UCIe	0.5 - 0.25 pJ/b
インフィニティファブリック	約1.5 pJ/b
TSMC CoWoS	0.56 pJ/b
フォベロス	0.3 pJ/b未満
EMIB	0.3 pJ/b
ワイヤーの束（BoW）	0.7～0.5 pJ/b
オンダイ	0.1 pJ/b

NVIDIAは、NVLink-C2Cインターコネクトに関する新たな詳細を発表しました。これは、メモリコヒーレンスをサポートするダイ間およびチップ間インターコネクトであり、最大900GB/秒のスループット（PCIe 5.0 x16リンクの7倍の帯域幅）を実現します。このインターフェースはNVLinkプロトコルを採用しており、NVIDIAはエネルギー効率と面積効率を重視したSERDESおよびLINK設計技術を用いてこのインターフェースを開発しました。物理的なC2Cインターフェースは標準的なPCB上で動作するため、専用のインターポーザーは使用しません。

NVLink-C2Cは、CXLやArmのAMBAコヒーレントハブインターフェース（CHI - Neoverse CMN-700メッシュの鍵）などの業界標準プロトコルもサポートしています。また、PCBベースのインターコネクトからシリコンインターポーザー、ウェーハスケール実装まで、様々な接続タイプをサポートしています。

電力効率はあらゆるデータファブリックにとって重要な指標であり、NVIDIAは本日、このリンクの転送データ1ビットあたりの消費電力が1.3ピコジュール（pJ/b）であると発表しました。これはPCIe 5.0インターフェースの5倍の効率ですが、将来市場に登場するUCIeインターコネクト（0.5～0.25 pJ/b）の2倍以上の電力を消費します。パッケージタイプは多様であり、C2CリンクはNVIDIAの特定のユースケースにおいて、パフォーマンスと効率性の優れたバランスを実現しています。しかし、上記の表に示すように、より高度なオプションでは、より高いレベルの電力効率が得られます。

Nvidia Grace CPUベンチマーク

画像

の

NVIDIAはさらに多くのパフォーマンスベンチマークを公開しましたが、ベンダーが提供する他のパフォーマンスデータと同様に、これらの数値は鵜呑みにしないようにしましょう。これらのベンチマークには、プレシリコン段階で実施されたという注意点があります。つまり、実際のシリコンでテストされていないエミュレーションによる予測値であり、「変更される可能性がある」ということです。そのため、少し鵜呑みにしないようにしましょう。

NVIDIAの新しいベンチマークは、SpecIntRate 2017ベンチマークにおいて、Grace CPU 1基で370というスコアを記録しました。これは、これらのチップが予想通りのスコア範囲にあることを示しています。NVIDIAは既にマルチCPUベンチマークを公開しており、 SpecIntRate2017ベンチマークにおいて、Grace CPU 2基で740というスコアを記録しています。これは明らかに、チップ2基で線形スケーリングによる性能向上が見られることを示しています。

データセンターにおける現在のパフォーマンスリーダーであるAMDの現世代EPYC Milanチップは、SPECスコアがそれぞれ382から424と幅広く、ハイエンドのx86チップが依然としてトップの座を維持することを意味します。しかし、NVIDIAのソリューションには、電力効率やGPUに優しい設計など、他にも多くの利点があります。

NVIDIAはメモリスループットベンチマークを公開し、Grace CPUがCPUメモリスループットテストで約500GB/秒のスループットを実現できることを示しました。NVIDIAはまた、このチップは接続されたHopper GPUへの読み取り/書き込み合計スループットが最大506GB/秒に達すると述べており、CPUからGPUへの帯域幅は読み取りスループットテストで429GB/秒、書き込みスループットテストで407GB/秒を記録しました。

グレース・ホッパーはアームシステムに対応しています

NVIDIAはまた、Grace CPUスーパーチップがSystem Ready認証を取得するための必須要件を満たすことを発表しました。この認証は、Armチップがオペレーティングシステムおよびソフトウェアと「そのまま動作する」ことを意味し、導入を容易にします。Graceは、ネストされた仮想化やS-EL2サポートを含む仮想化拡張機能もサポートします。NVIDIAは以下の機能もサポートしています。

RAS v1.1 汎用割り込みコントローラ (GIC) v4.1
メモリのパーティショニングとモニタリング (MPAM)
システムメモリ管理ユニット (SMMU) v3.1
Arm Server Base System Architecture (SBSA) により、標準準拠のハードウェアおよびソフトウェアインターフェースを実現します。さらに、Grace CPU ベースのシステムで標準的なブートフローを実現するため、Grace CPU は Arm Server Base Boot Requirements (SBBR) をサポートするように設計されています。
Grace CPUは、キャッシュと帯域幅のパーティショニング、そして帯域幅のモニタリングのために、Arm Memory Partitioning and Monitoring (MPAM)もサポートしています。また、Arm Performance Monitoring Unitsも搭載されており、CPUコアだけでなく、システムオンチップ (SoC) アーキテクチャ内の他のサブシステムのパフォーマンスをモニタリングできます。これにより、Linux perfなどの標準ツールを使用してパフォーマンスを調査できます。

Nvidia の Grace CPU と Grace Hopper スーパーチップは 2023 年初頭のリリースが予定されており、Hopper バリアントは AI トレーニング、推論、HPC 向けに調整されており、デュアル CPU Grace システムは HPC およびクラウドコンピューティングワークロード向けに設計されています。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。

Tips