92
AMD MI300XのパフォーマンスをNvidia H100と比較 - キャッシュ、レイテンシ、推論などをテストする低レベルベンチマークは、単一のGPUとしては優れた結果を示しています
MI300X
MI300X (画像提供:AMD)

MI300XはAMDの最新かつ最高のAI GPUフラッグシップで、Nvidia H100の競合として設計されています。近日発売予定のMI325XはH200のライバルとなり、MI350とMI400はBlackwell B200のライバルとなります。Chips and CheeseはAMDのモンスターGPUを様々な低レベルおよびAIベンチマークでテストし、Nvidia H100を大幅に上回る性能を発揮することを確認しました。

しかし、始める前に、言及する価値のある注意点がいくつかあります。Chips and Cheeseの記事では、さまざまなテストシステムでどのようなレベルのチューニングが行われたかについては触れられておらず、ソフトウェアはパフォーマンスに大きな影響を与える可能性があります。たとえば、Nvidiaは発売以来、ソフトウェアアップデートによってH100の推論パフォーマンスが2倍になったと述べています。また、サイトはAMDとは限定的に連絡を取り合っていましたが、Nvidiaとは連絡を取っていなかったため、結果に影響する可能性のある設定がいくつか見落とされている可能性があります。さらに重要なのは、MI300Xへのアクセスを提供したHot Aisle社が、特にMI300Xのベンチマークを探していたことです。Chips and Cheeseはまた、低レベルテストでMI300Xを主にH100のPCIeバージョンと比較しました。これはH100の中で最もスペックが低く、最も弱いバージョンです。

注意事項や免責事項はさておき、Chips and Cheeseの低レベルベンチマークは、AMDの最先端CDNA 3アーキテクチャをベースに構築されたMI300Xが、ハードウェアの観点から優れた設計であることを示しています。32KBのL1キャッシュ、16KBのスカラーキャッシュ、4MBのL2キャッシュ、そして256MBの大容量Infinity Cache(L3キャッシュとして機能)を含む合計4つのキャッシュの組み合わせにより、このチップのキャッシュ性能は実に印象的です。CDNA 3は、RDNA 2(RX 6000シリーズを駆動するAMDの第2世代ゲーミンググラフィックスアーキテクチャ)で初めて導入されたInfinity Cacheを継承した最初のアーキテクチャです。

チップスとチーズ

(画像提供:チップス&チーズ)

チップスとチーズ

(画像提供:チップス&チーズ)

MI300XのVRAMとローカルメモリ性能(スカラーキャッシュなど)にも同様の優位性が見られます。AMD GPUはH100 PCIeの2.72倍のローカルHBM3メモリを搭載し、VRAM帯域幅は2.66倍です。メモリテストにおいてAMD GPUが劣勢に立たされたのはメモリレイテンシのみで、H100は57%高速です。

これは80GBのHBM2Eを搭載した最低スペックのH100 PCIeカードであることに注意してください。H200などの後期バージョンでは、最大141GBのHBM3Eを搭載し、最大4.8TB/sの帯域幅を実現しています。H100 SXMバリアントでは、HBMが大幅に高速化され、最大3.35TB/sの帯域幅を実現しているため、2.0TB/sのカードを使用するとメモリ帯域幅が明らかに制限されます。

チップスとチーズ

(画像提供:チップス&チーズ)

次に、生の演算スループットについてですが、Chips and CheeseはMI300XがNvidiaのH100 GPUを圧倒したと評価しました。命令スループットはAMDチップに圧倒的な優位性を示しました。MI300XはH100の5倍の速度を記録したこともあり、最悪の場合では約40%も高速でした。Chips and Cheeseの命令スループットの結果は、INT32、FP32、FP16、INT8の演算を考慮に入れています。

これらのデータセンターGPUの現世代と前世代の結果を比較してみるのも興味深い点です。H100 PCIeは、FP16 FMAやADDなどの特定のワークロードでは優れたパフォーマンスを示していますが、それ以外のワークロードではA100よりもわずかに速い程度です。一方、AMDのMI300Xは、前世代のMI210と比較して、全般的に大幅な性能向上を示しています。

画像

1

2

チップスとチーズ
(画像提供:チップス&チーズ)

Chips and Cheeseが実施した最後の、そしておそらく最も重要なテストの一つは、AI推論テストでした。MI300XとH100だけでなく、GH200も使用しました(テストの一つ)。低レベルテストとは異なり、このテストではNvidia GPUはより高速なSXMバリアントを使用しています。Chips and CheeseはMixtral 8-7BとLLaMA3-70Bを使用した2つのテストを実施しました。サーバーのレンタル方法の影響で、ハードウェア構成も多様で一貫性がなく、各ベンチマークですべての構成がテストされたわけではないようです。

Mixtralの結果は、様々な構成オプションが大きな違いを生むことを示しています。例えば、H100 80GBカード1枚ではメモリ不足に陥り、KVcacheなしのMI300Xもパフォーマンスが低下します。GH200ははるかに優れたパフォーマンスを発揮しますが、MI300Xは依然としてリードしています。一方、H100 SXM5 GPUを2枚使用すると、約40%高いパフォーマンスが得られます。(選択した設定でモデルを実行するには、2枚のH100 GPUが必要でした。)

LLaMA3-70Bの結果に移ると、ハードウェア構成が異なります。今回は、メモリ不足のため、H100 GPU 2基でもモデルの実行に失敗しました(入出力長を2048に設定し、FP16を使用)。H100 GPU 1基でINT8を使用した場合も、同じく入出力長を2048に設定してもパフォーマンスは非常に低かったです。入出力長を128に下げるとパフォーマンスは大幅に向上しましたが、それでもMI300Xには遠く及びませんでした。H100 GPU 2基でINT8を使用した場合、入出力長を128に設定することで、ようやくある程度の競争力を発揮し始めました。

192GBという大容量メモリを搭載したMI300Xは、FP16を用いて2048と128の長さの両方をテストすることができ、後者が4,858という最高の結果を示しました。残念ながら、時間とサーバーレンタルの制約により、NvidiaのH200はここではテストされていません。H200はH100よりも良い結果が出ていた可能性があり、ぜひ試してみたいと思っています。

もっとテストをお願いします!

コンピューティングとキャッシュパフォーマンスの結果はAMD MI300Xの性能の高さを示していますが、AIテストはAI推論のチューニングが、パフォーマンスのひどい製品とクラス最高の製品の違いを生む可能性があることを明確に示しています。Chips and Cheeseの結果に限らず、多くのAIパフォーマンス結果全般で私たちが抱える最大の問題は、各GPUのソフトウェアスタックと設定において、どの程度の最適化が行われているのかが明確でないことが多いことです。

AMDが自社GPUのパフォーマンス向上について多少なりとも知識を持っていることは間違いないでしょう。同様に、NVIDIAも自社ハードウェアのパフォーマンス向上方法についてある程度の知識を持っているはずです。例えば、NVIDIAは昨年、AMDのMI300Xのパフォーマンスに関する主張に対し、AMDが提示した数値は明らかに最適ではないと反論しました。そして、ここにはまだ答えられていない疑問がいくつか残っています。

Chips and Cheeseの記事の冒頭には、「LLM実行の最適化を支援してくれたNScaleのElio氏、そして他のMI300Xシステムでも結果を再現できるようにしてくれたAMDの皆さんにも感謝します」と記されています。Nvidiaは、H100の結果が再現可能かどうかについては言及していません。仮に再現できたとしても、テストは最適な方法とは言えないのでしょうか?繰り返しになりますが、MI300Xを専門に宣伝する企業を通じてMI300Xやその他のサーバーハードウェアにアクセスした場合、テスト結果に影響を与える可能性があります。

今後のテストにはNVIDIAの担当者も参加してもらえることを期待しています。理想的には、チューニングやその他の質問にも双方から協力してもらえると嬉しいです。そして、私たちが期待していることといえば、IntelのPonte VecchioやGaudi3がテストに使えるようになると素晴らしいですね。また、OAM MI300X GPUとより直接的に比較できるH100のSMXバージョンもテストに使ってもらえたら嬉しいです。

[注記:clamchowder氏がTwitterでテストとハードウェアに関する追加情報を提供してくれました。NVIDIAの連絡先をいくつか教えていただくよう連絡しましたが、どうやら連絡先がなかったようです。このようなベンチマークを見るのは本当にありがたいですし、テスト方法に関する質問があればぜひお答えいただきたいからです。そして、一つ確かなことは、AIワークロード向けのチューニングが劇的な効果をもたらす可能性があるということです。また、文章のいくつかの箇所で表現を調整し、より分かりやすくしました。—Jarred]

結論は「結びの言葉:NVIDIAのハードウェア支配への挑戦」で始まります。これは間違いなくAMD​​の意図であり、CDNA 3アーキテクチャとMI300Xは正しい方向への大きな一歩です。これらの結果に基づくと、MI300XがH100と競合するだけでなく、パフォーマンスの王座を獲得できるワークロードが存在します。しかし、データセンターAIハードウェアの他の多くのベンチマークで見てきたように、そしてサイト自体が述べているように、「悪魔は細部に宿る」のです。

非推論テストに明らかに低速なPCIe H100カードを使用したり、推論ベンチマークにハードウェアを散漫に選択したりすることで、情報が欠落する可能性があります。Chips and Cheeseによると、これは利用可能なハードウェアが限られており、この種のハードウェアを入手するのが困難だったためです。つまり、私たちは、すべてのハードウェアが最大限の性能を発揮できるような方法で、このようなベンチマーク(独立したテスト)をもっと実施してほしいのです。

MI300Xの生のキャッシュ、帯域幅、そして計算結果は非常に良好に見えます。しかし、これらのGPUはスケールアウトや大規模インストール向けにも特化されているため、たとえMI300X単体でH100(あるいはH200)単体を明らかに上回ったとしても、数十、数百、あるいは数千のGPUを連携させた場合に状況がどのように変化するかは分かりません。ソフトウェアとエコシステムも重要であり、Nvidiaは過去にCUDAでリードしてきました。このようなハードウェアの低レベルベンチマークは興味深いものであり、推論結果は、GPUに特定のモデルに必要なVRAMがない場合に何が起こるかを示します。しかしながら、これはAMD MI300XとNvidia H100に関する最終的な結論には程遠いと考えています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Aaron Klotz 氏は Tom's Hardware の寄稿ライターであり、CPU やグラフィック カードなどのコンピューター ハードウェアに関するニュースを扱っています。