98
NvidiaのGraceサーバーCPUは、詳細なレビューでAMDとIntelと激しい戦いを繰り広げ、ベンチマークの半分以上でBergamo、Genoa、Emerald Rapidsを上回る
Nvidia GH200 SC23 発表
(画像提供:Nvidia)

PhoronixによるGH100(Graceチップを1つ搭載)のレビューによると、NVIDIAのGraceサーバーCPUは非常に競争力が高いようです。NVIDIAの72コアArm CPUは、全体的なパフォーマンスではAMDやIntelのフラッグシップ機に遅れをとりましたが、上位のEpyc 9754やXeon Platinum 8592+よりも多くのベンチマークで勝利しました。Armアーキテクチャへの最適化が進めば、Graceは非常に強力なデータセンタープロセッサとなる可能性があります。

GH100には、Hopper GPUと72コアのGrace CPU、480GBのLPDDR5X RAMが搭載されています。NvidiaはGraceチップ単体を販売していないため、GH100(およびGH200)は、Grace CPU単体の性能を検証できる唯一のデバイスです。PhoronixはGPTshop.ai経由でGH100にアクセスしましたが、リモート接続のみでした。電力統計はリモートコンピューターに公開されず、また、壁からの電力消費量も確認できなかったため、レビューでは電力値は記載されていません。

ベンチマークは、最も一般的なサーバーOSであるLinuxで実施されました。このレビューでは、デュアルソケット構成を含む様々なCPUとの比較が含まれています。下の表は、GraceとAMDのフラッグシップであるBergamoベースのEpyc 9754、およびIntelの最上位Emerald Rapids Xeon Platinum 8592+を比較した結果です。

スワイプして水平にスクロールします

GH200 CPUベンチマーク
行0 - セル0グレースホッパー GH200エピック 9754Xeon プラチナ 8592+
高性能共役勾配41.6925.8935.42
代数マルチグリッドベンチマーク 1.21,997,929,1112,291,049,6671,839,912,667
ルレシュ 2.0.323,185.1822,356.7539,468.91
Xmrig 6.18.117,25329,356.140,381.2
ジョン・ザ・リッパー 2023.03.1468,817204,828178,108
エース DGEMM 1.017.9443.6829.14
GraphicsMagick 1.3.38 シャープ1,363924749
GraphicsMagick 1.3.38 強化1,7611,4511,192
Graph500 3.0 中央値1,239,790,0001,147,090,0001,238,670,000
グラフ500 3.0 マックス1,315,650,0001,184,510,0001,304,200,000
ストレス-NG 0.16.04 マトリックス512,759.08552,067.04301,894.53
ストレス-NG 0.16.04 マトリックス 3D17,483.028,009.2113,854.38

これらのテストはすべて、GFLOPS、1秒あたりの計算回数、ポイント数など、さまざまな値で測定されました。Graceの損失の大部分は、これらのベンチマークのばらつきに収まっているため、一見するとCPUの性能はそれほど高くないように見えるかもしれません。それでも、High Performance Conjugate GradientやGraphicsMagickなど、Graceが大きくリードするワークロードもあります。

スワイプして水平にスクロールします

GH200 CPUベンチマーク(低いほど良い)
行0 - セル0グレースホッパー GH200エピック 9754Xeon プラチナ 8592+
ロディニア 3.1 (低いほど良い)30.3125.1539.89
NWChem 7.0.2 (低いほど良い)1,403.51,700.81,850.8
Xompact3d Incompact3d (低いほど良い)254.49493.5323.53
Xompact3d Incompact3d (低いほど良い)9.819.0310.18
Godot コンピレーション 4.0 (低いほど良い)139.1118.25111.96
プライムシーブ 8.0 (低いほど良い)35.4921.7649.06
Helsing 1.0-beta (低いほど良い)67.6148.9584.95
DuckDB 0.9.1 IMDB (低いほど良い)92.08147.696.87
DuckDB 0.9.1 TPC-H Parquet (低いほど良い)148.76177.13134.73
RawTherapee(低いほど良い)46.7266.1345.53
Timed Gem 5 コンパイル 23.0.1 (低いほど良い)180.62208.58174.18
全体的な平均パフォーマンス2,175.032,459.112,242.9

Graceは、完了時間で評価されるこの2回目のテストでさらに勢いを増しました。このスコアは低いほど良いとされています。最終的に、Graceチップ単体はEmerald Rapidsに対して15勝、BergamoとGenoa(表には含まれていませんが、結果は非常に似ています)に対してはそれぞれ13勝を挙げました。デュアルソケットシステムでは、NvidiaのサーバーCPUがAMDやIntelのCPUに勝ったケースもありました。Graceは、同じくArmを搭載したAmpereの老朽化したAltra Max M128-30と比較しても非常に高速でした。

しかし、Grace の損失の多くはかなり大きかったため、平均すると Emerald Rapids 搭載の Xeon Platinum 8592+ より 3% 遅く、Bergamo ベースの Epyc 9754 や Genoa ベースの Epyc 9654 より約 13% 遅くなっています。Phoronix によると、「AArch64 [Arm] にあまり最適化されていないワークロードがまだいくつかある」ため、Grace が負けたとき、多くの場合、大幅な差で負けることになります。

GraceがサーバーCPUとしてどれほど優れているかを、パフォーマンスだけで評価するのは困難です。効率性も重要な指標だからです。しかしながら、2つのGrace CPUを組み合わせたGraceスーパーチップのTDPは500ワットであることが分かっており、1つのGraceが消費する電力は350ワット以下であると考えられます。このスーパーチップの初期ベンチマークは、非常に高い効率性を示しており、これはシングルチップ構成でも同様の結果になると思われます。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

マシュー・コナッツァーは、Tom's Hardware USのフリーランスライターです。CPU、GPU、SSD、そしてコンピューター全般に関する記事を執筆しています。