21
NvidiaのArm搭載Grace CPUがデビュー、AI、HPCにおいてx86サーバーの10倍の性能を主張

グレースCPU

(画像提供:Nvidia)

NVIDIAは、ArmベースのGrace CPUアーキテクチャを発表しました。同社によると、AIおよびHPCワークロードにおいて、現在最速のサーバーと比較して10倍の性能を発揮します。この新しいチップは、まもなく2台の新しいAIスーパーコンピューターに搭載される予定で、500GBpsのスループットを実現するLPDDR5xメモリと、最先端デバイス向けの未発表GPUへの900GBpsのNVLink接続を備えた、未発表の「次世代」Arm Neoverse CPUコアを搭載しています。

Nvidiaはまた、2025年に「Grace Next」CPU、そして2024年半ばに登場予定の「Ampere Next Next」GPUを示す新たなロードマップ(下記)も公開しました。NvidiaによるARM買収は、現在も世界中の規制当局の承認手続きが進められており、NvidiaブランドのArmベースCPUが登場するのではないかとの憶測が飛び交っています。NvidiaのCEOであるJensen Huang氏は以前、その可能性は十分にあり得ると認めていました。Grace CPUアーキテクチャの最初のインスタンスは、私たちが慣れ親しんでいるソケット付きフォームファクターの汎用設計ではなく(チップはGPUと共にマザーボードに搭載されます)、Nvidiaが独自のArmベースデータセンターCPUの導入に真剣に取り組んでいることは明らかです。

NVIDIAはコア数や周波数に関する情報をまだ公開していませんが、Grace CPUが2023年初頭まで市場に投入されないことを考えると、これは全く驚くべきことではありません。同社は、これらが次世代Arm Neoverseコアであることを明言しています。Armの現在の公開ロードマップ(以下のスライド)から判断すると、これらは消費電力とダイ面積を犠牲にして最大のパフォーマンスを発揮するように最適化されたV1プラットフォーム「Zeus」コアである可能性が高いでしょう。 

画像

1

3

グレースCPU
(画像提供:Nvidia)

Zeusコアを搭載したチップは7nmまたは5nmプロセスで提供され、現行のArm N1コアと比較してIPCが50%向上します。Arm V1プラットフォームは、PCIe 5.0、DDR5、HBM2eまたはHBM3、そしてCCIX 1.1インターコネクトといった最新のハイエンド技術をすべてサポートしています。少なくとも現時点では、NVIDIAはCPUとGPUの接続にCCIXではなく独自のNVLinkを採用しているようです。

NVIDIAは、Grace CPUがSPECrate_2017_int_baseベンチマークで300以上の予測スコアを獲得し、十分なパフォーマンスを発揮すると発表しました。NVIDIAは、8基のGPUを搭載したDGXシステムを1つ搭載した場合、SPECrate_2017_int_baseスコア2,400まで直線的に拡張できると主張しています。これは、現在のDGXの最高スコアが450であることを考えると、非常に印象的です。

データセンターにおける現在のパフォーマンスリーダーであるAMDのEPYC Milanチップは、SPECスコアが382から424の範囲に達しており、Grace CPU単体でAMDの前世代64コアRomeチップと同等の性能を実現しています。NVIDIAが既存サーバーと比較して「10倍」というパフォーマンスを謳っていることを考えると、これはGPU駆動型のワークロードを指していると考えられます。

Nvidia Grace CPUの初期バージョンはBGAパッケージ(従来のx86サーバーチップのようなソケット型ではない)として出荷され、8個と思われるLPDDR5xメモリパッケージが両側に搭載されます。Nvidiaによると、LPDDR5x ECCメモリは標準的なDDR4メモリサブシステムと比較して、2倍の帯域幅と10倍の電力効率を実現します。

Nvidiaの次世代NVLink(詳細はまだ多く明らかにされていない)は、チップを隣接するCPUに900GBps(14倍高速)の転送速度で接続し、従来のCPUからGPUへのデータ転送速度の30倍を上回ります。同社はまた、この新設計によりCPU間のデータ転送速度が標準設計の2倍になり、CPU、GPU、システムメモリといった様々なコンピューティング要素間のデータ転送速度が最適ではないという制約を打破できると主張しています。 

画像

1

3

Nvidia Grace CPU
(画像提供:Nvidia)

上の図は、NVIDIAが現代のシステムにおいてGPUに十分な帯域幅を供給する上で抱える主な問題を概説しています。最初のスライドは、x86 CPU駆動型システムにおいてメモリからGPUへの帯域幅が64GBpsに制限されていることを示しています。PCIeスループット(16GBps)の制限がスループットの低下を悪化させ、最終的にGPUが最大限に活用できるシステムメモリの容量を制限しています。2番目のスライドは、Grace CPUのスループットを示しています。4つのNVLinkを使用することで、スループットは500GBpsに向上し、メモリからGPUへのスループットは30倍の2,000GBpsに向上します。

NVLink実装はキャッシュコヒーレンシも提供し、システムメモリとGPUメモリ(LPDDR5xおよびHBM)を同じメモリアドレス空間に配置することでプログラミングを簡素化します。キャッシュコヒーレンシはCPUとGPU間のデータ移動を削減し、パフォーマンスと効率の両方を向上させます。この追加機能により、NVIDIAは、AMDがFrontierエクサスケール・スーパーコンピュータでEPYC CPUとRadeon Instinct GPUを組み合わせた場合や、Intelが世界をリードするエクサスケール・スーパーコンピュータであるAuroraスーパーコンピュータでPonte VecchioグラフィックスカードとSapphire Rapids CPUを組み合わせた場合と同様の機能を提供できるようになります。

Nvidia によれば、この機能の組み合わせにより、世界最大の自然言語 AI モデルである GPT-3 を 2.8 AI エクサフロップスの Selene (現在世界最速の AI スーパーコンピュータ) でトレーニングするのにかかる時間が 14 日から 2 日に短縮されるという。

ロードマップ

(画像提供:Nvidia)

NVIDIAはまた、今後数年間のアップデートのペースを決定づける新たなロードマップも発表した。GPU、CPU(Armおよびx86)、DPUはすべて共存し、着実に進化していくという。Huang氏は、同社は各アーキテクチャを2年ごとに進化させ、x86を1年、Armを翌年に進化させ、その間に「キッカー」世代を設ける可能性があると述べた。これは、アーキテクチャではなくプロセス技術の小規模な進化となる可能性が高い。

注目すべきは、NVIDIAが著名なコンピューター科学者であるグレース・ホッパーにちなんで、Grace CPUアーキテクチャを命名したことです。NVIDIAはまた、チップレットベースのHopper GPUの開発にも取り組んでいるとの噂もあり、CPUとGPUのコードネームの組み合わせとしては興味深いものとなり、今後さらに目にすることになるでしょう。 

画像

1

4

Grace CPU スーパーコンピュータ
(画像提供:Nvidia)

米国エネルギー省ロスアラモス国立研究所は、Graceを搭載したスーパーコンピュータを建設する予定です。このシステムはHPE(旧Cray)によって構築され、2023年に稼働開始予定ですが、エネルギー省はこの新システムについて多くの詳細を明らかにしていません。

Grace CPUは、Nvidiaが世界最強のAI対応スーパーコンピュータと謳う、スイス国立コンピューティングセンター(CSCS)に導入されるAlpsシステムにも搭載されます。Alpsは2023年の稼働開始後、主にヨーロッパの科学者や研究者を対象とし、気候、分子動力学、数値流体力学などのワークロードに利用されます。

NVIDIAがArm買収に関心を示していることを考えると、同社が既存のArm顧客との関係拡大に着手すると予想するのは当然です。そのため、NVIDIAは自社GPUをAmazon Web Service(AWS)の強力なArmチップ「Graviton 2」にサポートする予定です。これは、AWSによるArmアーキテクチャの採用がクラウドワークロードの普及拡大につながっている中で、重要な追加機能となります。NVIDIAとの協業により、NVIDIAのGPUからAndroidゲームへのゲームストリーミング、そしてAI推論ワークロードの実行がAWSクラウド上で可能になります。これらの取り組みは2021年後半に実を結ぶ予定です。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。