24
Nvidia、Arm Grace CPUスーパーチップはIntel Ice Lakeより2倍高速、2.3倍効率が高いと発表

Grace CPU「スーパーチップ」搭載の Nvidia Hopper H100

(画像提供:Nvidia)

NvidiaはGTCで、データセンター向けに設計された同社初のCPU専用Armチップとなる、144コアの新型Grace CPUスーパーチップを発表しました。NvidiaはAMD EPYCと比較したベンチマーク結果を公開し、1.5倍の性能差があると主張しましたが、これは前世代モデルとの比較だったため、あまり参考になりませんでした。しかし、Nvidiaのアクセラレーテッドコンピューティング事業部門担当副社長、イアン・バック氏によるGTCプレゼンテーションの中に、GraceとIntel Ice Lakeのベンチマーク結果が隠されていました。このベンチマーク結果によると、HPCで一般的に使用される気象研究予測(WRF)モデルにおいて、GraceはIntelの現世代Ice Lakeと比較して2倍高速で、2.3倍のエネルギー効率を実現しています。

Nvidiaの最初のベンチマークでは、GraceはSPECrate_2017ベンチマークにおいて、前世代の64コアEPYC Rome 7742プロセッサ2つと比較して1.5倍高速であり、2023年初頭の登場時には現在のサーバーチップの2倍の電力効率を実現すると主張していました。しかし、これらのベンチマークは前世代のチップと比較したものです。Graceが来年登場する頃にはRomeチップは4年前の製品であり、AMDはすでにより高速なEPYC Milanを出荷しています。Romeとの比較を考えると、NvidiaのGraceは、パフォーマンスとワットあたりのパフォーマンスの両方で、新しいMilanと同等になると予想できます。しかし、その比較さえも実際には重要ではありません。AMDのEPYC Genoaは2023年に発売され、さらに高速になるでしょう。

これにより、NVIDIAとIntelの現世代Ice Lakeの比較がさらに興味深いものになります。Intelは2023年までにSapphire Rapidsを発売する予定ですが、少なくとも以下の比較では1世代分の距離が近づいていることになります。(ただし、これはベンダー提供のベンチマーク結果であり、Grace CPUのシミュレーションに基づいているため、NVIDIAの主張は鵜呑みにしないでください。)

Nvidia Grace スーパーチップ

(画像提供:Nvidia)

改めてご説明いたしますが、NVIDIAのGrace CPUスーパーチップは、Arm v9 Neoverse (N2 Perseus) プロセッサで、2つのダイに144個のコアが分散配置されています。NVIDIAが新たに開発したNVLink-C2Cインターコネクト技術により、900GB/秒のスループットとメモリコヒーレンシを実現しています。さらに、このチップは1TBのLPDDR5x ECCメモリを搭載し、最大1TB/秒のメモリ帯域幅を実現します。これは、DDR5メモリをサポートする他のデータセンタープロセッサの2倍に相当します。

間違いなく、このメモリスループットの向上は、上記の気象研究・予測(WRF)モデルにおけるGrace CPUスーパーチップの強みを活かすものです。NVIDIAによると、144コアのGraceチップのシミュレーションでは、WRFシミュレーションにおいて、36コア72スレッドのIntel「Ice Lake」Xeon Platinum 8360Yプロセッサ2基と比較して、2倍の速度と2.3倍の電力効率が実現すると示されています。つまり、144個のArmスレッド(各物理コアあたり2スレッド)が、144個のx86スレッド(物理コアあたり2スレッド)と競合していることになります。

WRFの様々な組み合わせは、ベンチマークで一般的に使用される実世界のワークロードであり、多くのモジュールはCUDAによるGPUアクセラレーション用に移植されています。この特定のベンチマークについてNvidiaに問い合わせたところ、同社はこのモジュールはまだGPUに移植されていないため、CPU中心であると回答しました。さらに、メモリ帯域幅に非常に敏感であるため、Graceはパフォーマンスと効率の両方で優位に立っています。Nvidiaの推定値は、「IB4モデル(イベリア半島の4km圏内の地域予報)用にArmに移植された標準NCAR WRFバージョン3.9.1.1に基づいています」。

Graceの驚異的なメモリスループットは、パフォーマンスとエネルギー効率の両方において大きなメリットをもたらします。これは、スループットの向上により貪欲なコアにデータが供給され続けるため、非アクティブなサイクル数が減少するためです。また、このチップはIce LakeのDDR4と比較して消費電力が低いLPDDR5Xを採用しています。

しかし、GraceはIntelの次期Sapphire Rapidsに対してはそれほど有利ではないでしょう。これらのチップはDDR5メモリをサポートし、HBMメモリを搭載したバージョンも用意されているため、メモリ帯域幅が限られたアプリケーションではGraceの強みに対抗できる可能性があります。AMDも、一部のワークロードにメリットをもたらす3DスタックL3キャッシュ(3D V-Cache)を搭載したMilan-Xをリリースしており、EPYC Genoaファミリーにも同様のSKUが提供されると予想されます。

NVIDIAがGTCやプレスリリースで、AMDの前世代EPYC Romeと比較して1.5倍の性能向上を示すベンチマークをメインのベンチマーク比較に用いたのは、Intelの現世代Ice Lakeと比較して2倍という大きな性能向上を示すベンチマークではなく、むしろその差を如実に物語っています。GTCのプレゼンテーションでは、Intelとの比較は伏せられていました。AMDがデータセンターのリーダーであることを考えると、NVIDIAは前世代のチップに打ち勝つことさえ、Intelの現世代の最高性能を打ち負かすよりも印象深いと考えたのかもしれません。

いずれにせよ、NVIDIAがIntelのシリコンを活用できないということではありません。例えば、NVIDIAのジェンスン・フアン氏は最近のラウンドテーブルで、「[...] 今後発売予定のOmniverseコンピューターにIntelのCPUが搭載されていなければ、Intelが得意とするシングルスレッド性能に大きく依存するデジタルツインシミュレーションを実行することは不可能でしょう」と述べています。

実際、これらのNvidia OVXサーバーは、Intelの32コアIce Lake 8362プロセッサを2基搭載しています。これらのプロセッサが選ばれたのは、シングルスレッド処理においてAMDのEPYCよりも機敏性に優れているからです。少なくとも、この特定のユースケースにおいてはそうです。興味深いことに、NvidiaはGraceのシングルスレッド処理における性能予測をまだ公開しておらず、むしろその圧倒的なスレッド性能を誇示することに注力しています。 

データ センターの CPU 競争に新たな強力な競合相手が参入してくるため、今後は間違いなく興味深い時代がやって来るでしょう。今回は、急速にデータ センターで最も重要な計算装置になりつつある GPU と緊密に統合された特殊な Arm 設計を採用しています。

NVIDIAは、Grace CPUスーパーチップが2023年初頭の出荷開始時に、ハイパースケールコンピューティング、データ分析、科学計算など、幅広いアプリケーション向けに市場最速のプロセッサになると発表しています。NVIDIAのGrace CPUスーパーチップが2023年時点で他のデータセンター向けチップと比較してどれほど優れたパフォーマンスを発揮するかに関わらず、今後数年間は、特にArm上で既に実行されている以下に示すような無数のHPCワークロードにおいて、豊富な選択肢が確実に提供されるでしょう。データセンターにおけるArmベースの新しいチップの最近の爆発的な増加を考えると、このリストは急速に拡大すると予想されます。

グレース

(画像提供:Nvidia)

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。