63
Nvidia:H100のAIパフォーマンスはソフトウェアの最適化により最大54%向上

NVIDIAは、ディープラーニングワークロードの主要ベンチマークの最新版であるMLPerf 3.0において、H100コンピューティングGPUの新たなパフォーマンス数値を公開しました。Hopper H100プロセッサは、トレーニング時間の測定において前身のA100を凌駕するだけでなく、ソフトウェアの最適化によってパフォーマンスも向上しています。さらに、NVIDIAはコンパクトなL4コンピューティングGPUと前身のT4 GPUの初期パフォーマンス比較も公開しました。

Nvidiaは2022年9月にMLPerf 2.1ベンチマークで得られたH100のテスト結果を初めて公開し、同社の主力コンピューティングGPUであるA100を様々な推論ワークロードにおいて最大4.3~4.4倍も上回る性能を発揮できることを明らかにしました。今回公開されたMLPerf 3.0のパフォーマンス数値は、NvidiaのH100がA100よりも高速である(当然のことですが)だけでなく、Intelが最近リリースしたXeon Platinum 8480+(Sapphire Rapids)プロセッサや、NeuChipsのReccAccel N3000、QualcommのCloud AI 100ソリューションよりも、様々なワークロードにおいて明らかに高速であることを再確認しています。

これらのワークロードには、画像分類(ResNet 50 v1.5)、自然言語処理(BERT Large)、音声認識(RNN-T)、医用画像(3D U-Net)、物体検出(RetinaNet)、レコメンデーション(DLRM)が含まれます。Nvidiaは、自社のGPUが高速であるだけでなく、ML業界全体でのサポートも優れていると強調しています。一部のワークロードは、競合ソリューションではうまく動作しませんでした。

エヌビディア

(画像提供:Nvidia)

しかし、Nvidiaが公開した数値には落とし穴があります。ベンダーはMLPerfの結果をクローズドとオープンの2つのカテゴリーで提出できます。クローズドカテゴリーでは、すべてのベンダーが数学的に同等のニューラルネットワークを実行する必要がありますが、オープンカテゴリーでは、ベンダーはネットワークを変更して自社のハードウェアのパフォーマンスを最適化できます。Nvidiaの数値はクローズドカテゴリーのみを反映しているため、Intelや他のベンダーが自社ハードウェアのパフォーマンスを最適化するために導入できる最適化は、このグループの結果には反映されていません。

ソフトウェアの最適化は、Nvidia自身の例からもわかるように、現代のAIハードウェアに大きなメリットをもたらす可能性があります。同社のH100は、MLPerf 3.0においてMLPerf 2.1と比較して、レコメンデーションワークロードで7%、オブジェクト検出ワークロードで54%のパフォーマンス向上を達成しました。これは大幅なパフォーマンス向上です。

エヌビディア

(画像提供:Nvidia)

ChatGPTや類似サービスの爆発的な増加に言及し、NvidiaのAI、ベンチマーク、クラウド担当ディレクターのDave Salvator氏はブログ記事に次のように書いている。「AIのiPhone時代において、推論のパフォーマンスは極めて重要です。ディープラーニングは現在、ほぼあらゆる場所に導入されており、工場現場からオンライン推奨システムに至るまで、推論パフォーマンスに対する飽くなき需要を生み出しています。」

同社は、H100がMLPerf 3.0における推論性能の王者であることを改めて証明するとともに、最近リリースされたAD104ベースのL4コンピューティングGPUの性能もチラ見せしました。Ada Lovelaceを搭載したこのコンピューティングGPUカードは、シングルスロットのロープロファイルフォームファクタで、あらゆるサーバーにフィットしますが、非常に優れた性能を発揮します。一般的なコンピューティングでは最大30.3 FP32 TFLOPS、スパース処理では最大485 FP8 TFLOPSです。

エヌビディア

(画像提供:Nvidia)

NVIDIAはL4を、同社の他のコンパクトデータセンターGPUであるT4とのみ比較しました。T4は2018年に発表されたTuringアーキテクチャを搭載したTU104 GPUをベースにしているため、MLPerf 3.0において、ワークロードによっては前世代機の2.2~3.1倍の速度を示すのは当然のことです。

「優れた AI パフォーマンスに加えて、L4 GPU は最大 10 倍高速な画像デコード、最大 3.2 倍高速なビデオ処理、4 倍以上のグラフィックスおよびリアルタイム レンダリング パフォーマンスを実現します」と Salvator 氏は書いています。

大手システムメーカーやクラウドサービスプロバイダーが既に提供しているNVIDIAのH100およびL4コンピューティングGPUのベンチマーク結果は、間違いなく素晴らしいものと言えるでしょう。ただし、ここで扱っているのは独立したテストではなく、NVIDIA自身が発表したベンチマーク数値であることにご留意ください。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。