
Nvidiaは本日、Grace Hopper CPU+GPUスーパーチップとL4 GPUアクセラレータの最初のベンチマーク結果を、業界標準のAIベンチマークであるMLPerfの最新バージョンに提出したと発表しました。MLPerfは、さまざまなワークロードにおけるAIパフォーマンスを公平に測定できるように設計されたものです。本日のベンチマーク結果には、MLPerfベンチマークにおける2つの注目すべき新技術、すなわち、新しい大規模言語モデル(LLM)GPT-J推論ベンチマークの追加と、改良された推奨モデルの追加が盛り込まれています。Nvidiaは、Grace Hopperスーパーチップは、GPT-Jベンチマークにおいて、市場をリードする同社のH100 GPUの1つよりも最大17%高い推論性能を発揮し、L4 GPUはIntelのXeon CPUの最大6倍の性能を発揮すると主張しています。
AI業界は、より新しいAIモデルとより強力な実装へと急速に進化し、猛スピードで進化を続けています。同様に、MLCommonsが管理するMLPerfベンチマークも、新しいv3.1リビジョンでAI環境の変化をより適切に反映するために、絶えず進化を続けています。
2021年から実世界のワークロードで使用されているテキスト要約モデルであるGPT-J 6Bが、MLPerfスイート内で推論性能を測定するためのベンチマークとして使用されるようになりました。GPT-Jの60億パラメータLLMは、1750億パラメータのGPT-3などのより高度なAIモデルと比較するとかなり軽量ですが、推論ベンチマークの役割によく適合しています。このモデルはテキストブロックを要約し、レイテンシの影響を受けやすいオンラインモードと、スループットを重視するオフラインモードの両方で動作します。MLPerfスイートでは、パラメータ数が2倍になった、より大規模なDLRM-DCNv2推奨モデル、より大規模なマルチホットデータセット、そして実世界の環境をより適切に表現するクロスレイヤーアルゴリズムも採用しています。
画像
1
の
10

NVIDIAは、GH200 Grace Hopper SuperchipのMLPerfテスト結果を初めて提出し、CPUとGPUの組み合わせがH100 GPU単体と比較して17%高いパフォーマンスを発揮することを強調しました。GH200はH100 CPUと同じシリコンを使用していることを考えると、一見すると驚くべき結果ですが、その理由は後ほど説明します。当然のことながら、8基のH100を搭載したNVIDIAのシステムはGrace Hopper Superchipを上回り、すべての推論テストでトップに立ちました。
改めてご説明いたしますが、Grace Hopper SuperchipはHopper GPUとGrace CPUを同一ボード上に搭載し、2つのユニット間で900GB/秒のスループットを実現するC2Cリンク(詳細はこちら)を提供します。これにより、CPUからGPUへのデータ転送において、一般的なPCIe接続の7倍の帯域幅が確保され、GH200のアクセス可能なメモリ帯域幅が向上します。さらに、96GBのHBM3メモリと4TB/秒のGPUメモリ帯域幅を含むコヒーレントメモリプールによって拡張されています。一方、HGXでテストされた比較対象H100は、HBM3がわずか80GBしかありません(次世代Grace Hopperモデルは、2024年第2四半期に1.7倍高速な144GBのHBM3eを搭載する予定です)。
Nvidiaはまた、Automatic Power Steeringと呼ばれる動的電力シフト技術を誇っています。これはCPUとGPUの電力バジェットを動的にバランスさせ、最も負荷の高いユニットにスピルオーバーバジェットを配分するものです。この技術は多くの競合する最新のCPU+GPUコンビネーションで使用されているため、目新しいものではありませんが、Grace Hopperスーパーチップに搭載されたGPUは、Grace CPUから電力をシフトすることで、HGXよりも高い電力供給バジェットを実現できます。これは標準的なサーバーでは不可能です。CPU+GPUシステム全体のTDPは1000Wでした。
推論の大部分は依然としてCPU上で実行されていますが、将来的にはより大規模なモデルが普及するにつれて状況が変化する可能性があります。これらのワークロードをCPUからL4のような小型低消費電力GPUに置き換えることは、Nvidiaにとって極めて重要です。なぜなら、それは大量販売を促進することになるからです。今回のMLPerf提出には、NvidiaのL4 GPUの最初の結果も含まれています。推論に最適化されたこのカードは、補助電源接続を必要としないスリムなフォームファクターのカードでわずか72Wの消費電力であるにもかかわらず、GPT-J推論ベンチマークにおいて単一のXeon 9480の6倍の性能を発揮しました。
NVIDIAはまた、L4 GPU 8基と前世代のXeon 8380s CPU 2基のパフォーマンスを比較し、ビデオ+AI デコード・推論・エンコードワークロードにおいてCPUと比較して最大120倍のパフォーマンスを発揮すると主張していますが、これはやや偏りがあります。これはおそらく、単一のシャーシに詰め込める膨大なコンピューティングパワーを直接比較することを意図したものでしょう。とはいえ、クアッドソケットサーバーは必ずしもこの用途に最適ではないものの、利用可能であることは注目に値します。また、このテストでは、より新しいXeonチップの方が若干優れたパフォーマンスを発揮する可能性が高いでしょう。テスト構成はスライド下部の小さな文字で記載されているので、詳細に注意してください。
最後に、Nvidia は Jetson Orin ロボット チップのベンチマークも提出し、主にソフトウェアの改善によって推論スループットが 84% 向上したことを示しました。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
画像
1
の
11

現実世界では、各AIモデルは、特定のジョブまたはタスクを達成するためにAIパイプライン内で実行される、より長い一連のモデルの一部として実行されることを覚えておくことが重要です。上記のNvidiaの図はこれをうまく表しており、1つのクエリに対して完了までに8つの異なるAIモデルが実行されています。また、このようなタイプのAIパイプラインが1つのクエリを満たすために最大15のネットワークにまで拡張されることは珍しくありません。これは重要な背景です。上記のスループット重視のベンチマークは、単一のAIモデルを高い使用率で実行することに焦点を当てる傾向があるのに対し、現実世界のパイプラインでは、特定のタスクを完了するために複数のAIモデルを連続的に実行する必要があるため、はるかに柔軟性が求められます。
NVIDIAは先週、生成AIワークロード向けのTensorRT-LLMソフトウェアが推論ワークロードにおいて最適化されたパフォーマンスを提供し、H100 GPUと併用した場合、追加コストなしで2倍以上のパフォーマンスを実現すると発表しました。NVIDIAはこのソフトウェアの詳細を最近公開しており(詳細はこちら)、今回の結果発表時点では推論性能を向上させるこのソフトウェアが準備できていなかったことを指摘しています。MLCommonsはMLPerfへの提出に30日間のリードタイムを要求しており、当時TensorRT-LLMは利用できませんでした。つまり、NVIDIAのMLPerfベンチマークの第1ラウンドは、次回の提出で大幅な改善が見られるはずです。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。