
インテルは、AMDがComputex基調講演で発表した最新のAIベンチマークに対し反論した。そのベンチマークでは、AMDのZen 5ベースのEPYC Turinは、AIワークロードにおいてインテルのXeonチップよりも5.4倍高速であると主張していた。インテルは本日、自社ベンチマークにおける現世代Xeonプロセッサの性能を強調したブログ記事を投稿し、現在出荷中の第5世代Xeonチップは、2024年後半に登場予定のAMDの次期3nm EPYC Turinプロセッサよりも高速であると主張した。インテルは、AMDのベンチマークはXeonの性能を「不正確に表している」と述べ、AMDの主張に反論するために自社ベンチマークを公開した。
画像
1
の
2

いつものように、ベンダーが提供するベンチマーク結果には注意を払い、テスト構成に細心の注意を払う必要があります。上記のアルバムには、Intelのテストノートを掲載しています。これらのチップはすべてデュアルソケットサーバーでテストされました。
AMD のベンチマークでは Xeon に対してさまざまな利点が示されましたが、Llama2-7B チャットボットの結果は最も極端な勝利を際立たせ、128 コアの Turin (合計 256 コア) が Intel の 64 コアの Emerald Rapids Xeon 8592+ (合計 128 コア) に対して 5.4 倍の優位性を示しました。
一方、Intel 自身の内部結果は AMD のベンチマークよりも 5.4 倍高速であり、現在出荷中の 64 コア Xeon は AMD の将来の 128 コア モデルに対して優位に立っているという、実に印象的な主張であり、パフォーマンスに大きな変化が見られます。
Intelによると、AMDはベンチマークに使用したソフトウェアの詳細やテストに必要なSLAを公開しておらず、使用されたバッチサイズのリストも見つけることができません(AMDのテストノートは下記参照)。しかし、IntelはAMDのテスト結果は、自社の社内ベンチマークと広く入手可能なオープンソースソフトウェア(PyTorch用Intel拡張機能)の結果と一致していないと述べています。Intelはベンチマークに「厳格な」50ミリ秒のP99レイテンシ制約を想定し、同じINT4データ型を使用しました。
このベンチマークが真のパフォーマンスを反映するのであれば、ここでの差異はIntelのAMX(Advanced Matrix Extensions)数学拡張機能のサポートにある可能性が高い。これらの行列演算関数はAIワークロードのパフォーマンスを大幅に向上させるが、AMDがIntelのチップをテストする際にAMXを採用していたかどうかは不明である。特に、AMXはBF16/INT8をサポートしているため、ソフトウェアエンジンは通常、INT4の重みをより大きなデータ型に変換してAMXエンジンで処理する。AMDの現世代チップはネイティブの行列演算をサポートしておらず、Turinもサポートしているかどうかは不明である。
画像
1
の
4

AMDのComputexベンチマークでは、AI駆動型要約および翻訳ワークロードにおいて、Turinが第5世代Xeonに対してそれぞれ3.9倍と2.5倍の優位性を示したと発表されています。しかし、Intelはこれに対し異論を唱え、自社の結果ではAMDがXeon 8592+で達成した性能の2.3倍と1.2倍を示しています。
Intelはこのグラフにおいて、AMDのTurinに関する主張とベンチマーク結果を照らし合わせていません(AMDの主張は上記に記載しています)。代わりに、AMDが現在販売している96コアのEPYC 9754プロセッサと比較し、そのチップに対する相対的なパーセンテージでパフォーマンス向上を示しています。AMDのテストノート(上記最後のスライド)には、要約と翻訳のワークロードにどのモデルが使用されたかが記載されていないため、これらのワークロードにおけるTurinとの相対的なパフォーマンスを算出することは不可能と思われます。しかしながら、これらのベンチマークではTurinが依然として優位に立つと思われますが、その差は僅差です。
注目すべきことに、Intel は、同社の前世代 Xeon でさえ AMD の現世代 EPYC Genoa よりも高速であり、同社の新しい第 5 世代チップは Genoa よりも最大 2.5 倍高速であると主張しています。
Intelのブログによると、今回のベンチマークには含まれていない、さらに新しいGranite Rapids Xeon 6チップは、メモリチャネルを8チャネルから12チャネルに増やしたことと、帯域幅を増強するMCR DIMMのサポートにより、ここで使用されている現行世代チップと比較して最大2.3倍のメモリ帯域幅をサポートするとのことです。そのため、近日発売予定のチップでは、これらのワークロードにおいてさらに高いパフォーマンスが期待されています。Intelの新しいチップは最大128コアを搭載しており、Turinと比較してIntelのパフォーマンスが向上するはずです(これらの比較は64コアモデルとの比較です)。注目すべきは、NAMDにおける分子動力学ワークロードにおいてTurinが3.1倍高速であるというAMDの主張に対し、Intelが反論していないことです。
考え
IntelとAMDがCPU上で実行されるAIワークロードにおけるリーダーシップの座を争う中、AIベンチマーク戦争は激化しています。ベンダー提供のベンチマークを額面通りに受け取るのは、これまで以上に難しくなっています。そもそも、私たち自身もこれまでそうしてきませんでしたが。とはいえ、ベンダー提供のベンチマークでは、明確に定義されたベンチマーク構成が提示されることが期待されますが、AMDのTurinテストノートはその基準を満たしていません。ちなみに、Intelも比較テストプラットフォームの詳細を十分に説明していない場合があるので、両ベンダーともこの点で改善の余地があります。
注目すべきは、Intel は CPU と Gaudi のテスト結果を業界で認められた公開 MLPerf データベースに提出し、簡単に検証可能な AI ベンチマーク結果を提供しているのに対し、AMD はまだ比較用のベンチマークを提出していないことです。
両社が最新チップを発売するにつれ、両社のベンチマーク競争はますます激化すると予想されますが、私たち自身もこれらのシステムをテストし、違いを探る予定です。現在、IntelのXeon 6チップをベンチマークテスト中です。今後の展開にご期待ください。
その間、Intelの反訴についてAMDにコメントを求めており、回答が得られ次第、改めてお知らせします。AIワークロード向けの最適化は重要な要素となりつつあり、相対的なパフォーマンスに大きな向上(あるいは低下)が見られることは珍しくありません。GPUにおいても、時間の経過とともに100%以上のパフォーマンス向上が見られてきました。明らかに、チューニング済み構成と未チューニング構成の比較は、今後も見られるでしょう。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。