Intel が AMD の AI ベンチマークに反論、現世代の Xeon チップは AI において他のチップよりも高速であると主張する結果を発表…

（画像提供：Tom's Hardware）

インテルは、AMDがComputex基調講演で発表した最新のAIベンチマークに対し反論した。そのベンチマークでは、AMDのZen 5ベースのEPYC Turinは、AIワークロードにおいてインテルのXeonチップよりも5.4倍高速であると主張していた。インテルは本日、自社ベンチマークにおける現世代Xeonプロセッサの性能を強調したブログ記事を投稿し、現在出荷中の第5世代Xeonチップは、2024年後半に登場予定のAMDの次期3nm EPYC Turinプロセッサよりも高速であると主張した。インテルは、AMDのベンチマークはXeonの性能を「不正確に表している」と述べ、AMDの主張に反論するために自社ベンチマークを公開した。

画像

の

いつものように、ベンダーが提供するベンチマーク結果には注意を払い、テスト構成に細心の注意を払う必要があります。上記のアルバムには、Intelのテストノートを掲載しています。これらのチップはすべてデュアルソケットサーバーでテストされました。

AMD のベンチマークでは Xeon に対してさまざまな利点が示されましたが、Llama2-7B チャットボットの結果は最も極端な勝利を際立たせ、128 コアの Turin (合計 256 コア) が Intel の 64 コアの Emerald Rapids Xeon 8592+ (合計 128 コア) に対して 5.4 倍の優位性を示しました。

一方、Intel 自身の内部結果は AMD のベンチマークよりも 5.4 倍高速であり、現在出荷中の 64 コア Xeon は AMD の将来の 128 コアモデルに対して優位に立っているという、実に印象的な主張であり、パフォーマンスに大きな変化が見られます。

Intelによると、AMDはベンチマークに使用したソフトウェアの詳細やテストに必要なSLAを公開しておらず、使用されたバッチサイズのリストも見つけることができません（AMDのテストノートは下記参照）。しかし、IntelはAMDのテスト結果は、自社の社内ベンチマークと広く入手可能なオープンソースソフトウェア（PyTorch用Intel拡張機能）の結果と一致していないと述べています。Intelはベンチマークに「厳格な」50ミリ秒のP99レイテンシ制約を想定し、同じINT4データ型を使用しました。

このベンチマークが真のパフォーマンスを反映するのであれば、ここでの差異はIntelのAMX（Advanced Matrix Extensions）数学拡張機能のサポートにある可能性が高い。これらの行列演算関数はAIワークロードのパフォーマンスを大幅に向上させるが、AMDがIntelのチップをテストする際にAMXを採用していたかどうかは不明である。特に、AMXはBF16/INT8をサポートしているため、ソフトウェアエンジンは通常、INT4の重みをより大きなデータ型に変換してAMXエンジンで処理する。AMDの現世代チップはネイティブの行列演算をサポートしておらず、Turinもサポートしているかどうかは不明である。

画像

の

AMDのComputexベンチマークでは、AI駆動型要約および翻訳ワークロードにおいて、Turinが第5世代Xeonに対してそれぞれ3.9倍と2.5倍の優位性を示したと発表されています。しかし、Intelはこれに対し異論を唱え、自社の結果ではAMDがXeon 8592+で達成した性能の2.3倍と1.2倍を示しています。

Intelはこのグラフにおいて、AMDのTurinに関する主張とベンチマーク結果を照らし合わせていません（AMDの主張は上記に記載しています）。代わりに、AMDが現在販売している96コアのEPYC 9754プロセッサと比較し、そのチップに対する相対的なパーセンテージでパフォーマンス向上を示しています。AMDのテストノート（上記最後のスライド）には、要約と翻訳のワークロードにどのモデルが使用されたかが記載されていないため、これらのワークロードにおけるTurinとの相対的なパフォーマンスを算出することは不可能と思われます。しかしながら、これらのベンチマークではTurinが依然として優位に立つと思われますが、その差は僅差です。

注目すべきことに、Intel は、同社の前世代 Xeon でさえ AMD の現世代 EPYC Genoa よりも高速であり、同社の新しい第 5 世代チップは Genoa よりも最大 2.5 倍高速であると主張しています。

Intelのブログによると、今回のベンチマークには含まれていない、さらに新しいGranite Rapids Xeon 6チップは、メモリチャネルを8チャネルから12チャネルに増やしたことと、帯域幅を増強するMCR DIMMのサポートにより、ここで使用されている現行世代チップと比較して最大2.3倍のメモリ帯域幅をサポートするとのことです。そのため、近日発売予定のチップでは、これらのワークロードにおいてさらに高いパフォーマンスが期待されています。Intelの新しいチップは最大128コアを搭載しており、Turinと比較してIntelのパフォーマンスが向上するはずです（これらの比較は64コアモデルとの比較です）。注目すべきは、NAMDにおける分子動力学ワークロードにおいてTurinが3.1倍高速であるというAMDの主張に対し、Intelが反論していないことです。

考え

IntelとAMDがCPU上で実行されるAIワークロードにおけるリーダーシップの座を争う中、AIベンチマーク戦争は激化しています。ベンダー提供のベンチマークを額面通りに受け取るのは、これまで以上に難しくなっています。そもそも、私たち自身もこれまでそうしてきませんでしたが。とはいえ、ベンダー提供のベンチマークでは、明確に定義されたベンチマーク構成が提示されることが期待されますが、AMDのTurinテストノートはその基準を満たしていません。ちなみに、Intelも比較テストプラットフォームの詳細を十分に説明していない場合があるので、両ベンダーともこの点で改善の余地があります。

注目すべきは、Intel は CPU と Gaudi のテスト結果を業界で認められた公開 MLPerf データベースに提出し、簡単に検証可能な AI ベンチマーク結果を提供しているのに対し、AMD はまだ比較用のベンチマークを提出していないことです。

両社が最新チップを発売するにつれ、両社のベンチマーク競争はますます激化すると予想されますが、私たち自身もこれらのシステムをテストし、違いを探る予定です。現在、IntelのXeon 6チップをベンチマークテスト中です。今後の展開にご期待ください。

その間、Intelの反訴についてAMDにコメントを求めており、回答が得られ次第、改めてお知らせします。AIワークロード向けの最適化は重要な要素となりつつあり、相対的なパフォーマンスに大きな向上（あるいは低下）が見られることは珍しくありません。GPUにおいても、時間の経過とともに100%以上のパフォーマンス向上が見られてきました。明らかに、チューニング済み構成と未チューニング構成の比較は、今後も見られるでしょう。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。

Ecosystem