28
インテルは、AIやその他のワークロードにおいてSapphire RapidsがAMD EPYC Genoaより最大7倍高速であると発表

サファイアラピッズ

(画像提供:Tom's Hardware)

インテルは、第4世代XeonスケーラブルSapphire Rapids CPUとAMDの第4世代EPYC Genoaプロセッサを対決させた新たなベンチマーク結果を多数公開し、32コアチップ2つを比較した場合、AIワークロードにおいて最大7倍の性能を発揮したと主張している。インテルはまた、Sapphire Rapidsの内蔵アクセラレータを標準的な汎用ワークロードの多くで活用した場合など、特定の条件下ではより高い性能を発揮するとも述べている。HBMメモリを搭載した初のx86データセンターCPUであるインテルの56コアXeon Maxも、いくつかのHPCワークロードにおいてAMDの96コア主力製品に匹敵するか、それを上回っている。

Intelのパフォーマンス比較は、同社が今年1月にSapphire Rapids Xeonを発売してからかなり経ってから発表されましたが、ベンチマーク比較は、昨年11月に発売されたAMDの競合製品EPYC Genoaチップの入手が困難だったため、遅れたとIntelは述べています。ベンチマークは、私たちが取材に向かったAMDのAIとデータセンターに関するイベントの前日に発表されたため、イベント中にIntelのベンチマークに関するAMDからのフィードバックを得ようとしています。

AMDのGenoaを搭載した数台の出荷済みOEMシステムを手に、IntelはAI、HPC、汎用ワークロードなど、複数の種類のワークロードで幅広いベンチマークを実施し、競合状況に関する見解を示しました。しかし、ベンダーが提供するすべてのベンチマークと同様に、これらのベンチマークには注意が必要です。Intelは、これらのテストのために自社とAMDの両方のシリコンに対してすべての合理的な最適化を有効にしたと主張していますが、比較には多少偏りがある可能性があることに注意してください。この点については、後ほど指摘します。比較に使用されたチップの価格もまた、偏りがあります。テストされた構成に関するIntelの完全なテストノートを、以下の関連画像アルバムに掲載しました。それでは、Intelの結果を詳しく見ていきましょう。 

AIワークロード:Intel Sapphire Rapids Xeon vs AMD EPYC Genoa

ほぼすべての大規模組織にとって、AI駆動型アプリケーションを自社の環境に「いつ」導入すべきかという問題はもはや存在せず、「どこに、どのように」導入すべきかという問題となっています。確かに、AIトレーニングは依然としてGPUや様々なカスタムチップに依存しており、大規模言語モデル(LLM)も当面の間、これらのアクセラレータに依存し続けると予想されます。しかし、AI推論ワークロードの大部分は依然としてCPU上で実行される傾向にあります。データセンターへのAI導入のペースが加速していることを考えると、今後数年間、様々な推論におけるCPUのパフォーマンスはますます重要になるでしょう。

Intelは、2019年に第2世代Cascade Lake XeonスケーラブルチップでDL(ディープラーニング)Boostスイートを発表して以来、AIワークロードの高速化に注力しており、同社ではAIワークロードに特化して最適化された初のCPUだと主張している。これらのチップには、AIアプリケーションで重視される小さなデータタイプに命令を最適化した新しいVNNI(ベクターニューラルネットワーク命令)のサポートが付属していた。IntelのAI戦略の根本原則の1つは、AVX-512を使用し、VNNIとBF16を使用することで、AIワークロードにおけるXeonのパフォーマンスと電力効率を大幅に向上させることだった。Intelは、ソフトウェアの最適化を含むAIアクセラレーション機能に重点を置き、現在では追加料金を支払う意思があれば、Sapphire Rapidsチップに専用のAIアクセラレーションエンジンを搭載するまでに年々拡大している。

画像

1

5

Sapphire Rapids Xeon vs AMD EPYC Genoa
(画像提供:Intel)

スワイプして水平にスクロールします

モデル価格コア/スレッドベース/ブースト(GHz)TDPL3キャッシュ(MB)メモリcTDP(W)
EPYC ジェノバ 93543,420ドル32 / 643.25 / 3.8280W25612チャネルDDR5-4800240~300W
SPR Xeon 8462Y+5,945ドル32 / 642.8 / 4.1300W608チャネルDDR5-4800270~300W

しかし、Sapphire Rapidsシリコンには、より重要な進化が潜んでいます。Intelは、タイルと呼ばれる新しい2次元レジスタセットを用いることで、AIワークロードのパフォーマンスを飛躍的に向上させる、新しいAdvanced Matrix Extensions(AMX)x86命令群へと進化を遂げました。AMXを支えるタイル・マトリックス乗算ユニット(TMUL)は、Sapphire Rapidsチップにネイティブに搭載されており、専用のAIアクセラレータエンジンのように追加料金を払う必要はありません。BF16とINT8を活用して行列乗算演算を実行し、AIパフォーマンスを大幅に向上させます。

上記のベンチマークは、オプションの内蔵AIアクセラレータエンジンではなく、Intel AMXを使用しています。Intelは、34層の物体検出CNNモデルであるResNet34において、バッチサイズ1でINT8命令を使用し、レイテンシを測定した結果、EPYC Genoaに対して7倍の性能向上を実現したと主張しています。この場合、SLAは100ミリ秒未満です。また、同じワークロードでバッチテストを行った結果、約5.5倍の性能向上を実現したと主張しています。このモデルはPyTorchでトレーニングされていますが、ONNX形式に変換されています。

Intel は、15 ミリ秒未満の SLA による ResNet50 (INT8 BS1) 画像分類では AMD に対して約 3.3 倍の優位性があると主張しており、バッチ ワークロードで PyTorch BF16 と INT8 を使用したディープラーニング推奨モデルである DLRM では 3 倍の優位性があると主張しています。

また、BF16を使用したBertLarge自然言語処理では約5.5倍の優位性も見られますが、これはFP32を使用したGenoaと比較した場合であり、同一条件でのテストではありません。Intelによると、テスト時点ではTensorFlowを使用したAMDのZenDNN(Zen Deep Neural Network)ライブラリではBF16データ型がサポートされていなかったため、BertLargeテストでデータ型の不一致が発生しました。残りのベンチマークでは、IntelシステムとAMDシステムの両方で同じデータ型を使用しましたが、上記の画像アルバムの最後にあるテストノートには、テストした2つの構成間でインスタンスあたりのコア数が若干異なっていることがわかります。詳細についてはIntelに問い合わせました[編集:Intelは、両タイプのチップのパフォーマンスのスイートスポットを見つけるために、さまざまな比率を調査したと回答しました]。

全体として、Intel は AMX アクセラレーションが業界標準のフレームワークでパフォーマンスを大幅に高速化すると主張していますが、効率性についても言及することが重要です。各ベンチマークの 2 番目の黄色のバーは、Intel のワット当たりパフォーマンスの主張を数値化したものです。これは、EU など一部の地域では電力コストが上昇しているため特に、今日の電力制約のあるデータセンターでは非常に重要な指標です。Intel は、同様のコア数を持つ 2 つのチップを比較した場合、AMX が非常に効率的な利点をもたらすと主張していますが、効率性の利点をもたらす傾向がある Genoa のより高度なプロセス ノードを考慮すると、これは驚くべきことです。確かに、AVX-512 や AMX に見られるように専用シリコンはダイ面積の点でコストが高く、したがって全体的なコストも高くなりますが、アプリケーションがアクセラレータを適切に活用できる場合、利点は非常に大きくなります。 

Intelの32コアXeon Platinum 8462Y+チップは、AMDの32コアEPYC Genoa 9354と競合しますが、これらは同一コア数の比較ですが、Intelの8462Y+の価格は5,945ドルであるのに対し、AMDの9354の価格は3,420ドルであるため、Intelチップの方が74%高価です。ただし、両ベンダーの定価は通常、顧客(特にTier 1顧客)が実際に支払う金額を反映していないため、価格はあくまで目安として捉えてください。

AMDは、製品スタックのどの価格帯でもコア数の多いチップを提供する傾向があり、ピーク時のコア数はIntelの56コアに対して96コアと高い数値です。Intelはここで32コア対32コアの比較に留まりましたが、コアあたりのソフトウェアライセンス料が、両者を比較可能な水準に維持している理由です。公平を期すために言えば、ソフトウェアライセンスや、DDR5メモリ、GPU/アクセラレータといったその他のサーバーBOMコストは、ソリューションレベルの価格設定に大きな影響を与えます。

32コア製品におけるIntelのAI性能の優位性の大きさを考えると、たとえ自社の高コア製品への移行に伴い、ワークロード/消費電力のスケーリングがある程度劣るとしても、これらのAIワークロードにおいて、よりコア数の多いEPYCチップと十分に競合できると想定するのはほぼ間違いないでしょう。このパフォーマンスの多くは、Intelのソフトウェアによる実現に向けた取り組みによるものです。

Intelは、LLM(小型版)とのベンチマーク比較を実施していません。これは主に、LLM環境が未成熟かつ急速に変化していることが理由です。しかし、同社はHBM搭載のXeon Maxモデルにおいて、帯域幅を大量に消費するLLMで優れた結果が得られていると発表しており(詳細は後述)、GPU不足の状況を考えると興味深い結果となる可能性があります。Xeon MaxのLLMベンチマークは今後公開される予定です。

一般的なワークロード: Intel Sapphire Rapids Xeon vs AMD EPYC Genoa

画像

1

8

Sapphire Rapids Xeon vs AMD EPYC Genoa
(画像提供:Intel)

ここでは、より広範な一般的なワークロードにおいて、同じ 2 つのチップ間の膠着状態が見られます。Intel は、SPECint と SPECfp で、効率では Genoa に大きく遅れをとっており、パフォーマンスではわずかに遅れをとっていることがわかりますが、同社は最近、業界標準の SPEC ベンチマークを軽視し始めています。これは、古いベンチマークでは実際の顧客のワークロードを代表しなくなったと感じているためです。これは、実際には業界では珍しい見方ではありません。Intel の SPEC に対する考え方は、Sapphire Rapids の説明会で共有されたスライドウェア (上記アルバムの 2 番目のスライド) に示されています。Intel は、由緒ある SPEC の次世代をより代表的なものにするための定義に取り組んでいると述べています。SPEC については、Intel は Sapphire Rapids には ICC コンパイラを使用し、EPYC には AOCC を使用しました。残りのベンチマークでは、両方のタイプのチップで「主に」GCC コンパイラを使用しています。

Intelはストリームトライアドメモリベンチマークでも後れを取っていますが、Sapphire Rapidsのメモリチャネル数が8であるのに対し、Genoaは12であることを考えると、これは驚くべきことではありません(Genoaはチャネル数が多いため、これらのベンチマークすべてにおいてAMDが50%多くのメモリ容量を利用できることになります)。この差は、HPCGやAnsyst Fluent/Mechanical(図示なし)など、メモリ依存のワークロードにおいてもAMDに優位性を与えています。Intelがこれらの比較においてメモリ依存のワークロードを避けていることは明らかですが、HPCセクションでは比較のためにXeon Maxを採用しており、こうしたタイプのワークロードが見られます。

Intelは、これらのワークロードでわずかなパフォーマンス向上が見られると主張していますが、より大きなパフォーマンス向上の一部は、追加料金で利用できるオンチップアクセラレータエンジンの採用によるものだと指摘しています。Intelは、SQL HammerDB、Gromacs、LAMMP、NAMDなど、横軸にブロンズでマークされた複数のワークロードでこれらのエンジンを使用し、これらのエンジンを、その利点を活用するように調整されたアプリケーションと併用することの利点を強調しました。

ソフトウェアサポートを通じてこれらのエンジンをフル活用したベンチマークはこれまであまり見られませんでした。そのため、Intelがアクセラレーションの面で前進していることは明らかであり、少なくとも自社のベンチマークによれば、その効果は良好です。ただし、AI、暗号化/復号化、圧縮、データ移動、分析を高速化するこれらのアクセラレータは、Sapphire Rapids製品群全体で一貫して利用できるわけではなく、追加料金がかかる点にご注意ください。

DPUの問題もあります。これらのディスクリートアクセラレータは、暗号化/復号化、圧縮、データ移動など、多くの同じ機能をより高いパフォーマンスレベルで実行できるだけでなく、CPUのオフロード、ネットワークトラフィックの管理、独立したコントロールプレーンの提供も行います。高度なDPU強化型データセンターアーキテクチャは、私たちが「従来型」と考えるデータセンターアーキテクチャほど普及していませんが、Intelのオンダイアクセラレータエンジンの相対的な価値は、導入環境によって異なることを意味します。

HPC ワークロード: Intel Xeon Max vs AMD EPYC Genoa

画像

1

4

Sapphire Rapids Xeon vs AMD EPYC Genoa
(画像提供:Intel)

スワイプして水平にスクロールします

モデル価格コア/スレッドHBMベース/ブースト(GHz)TDPL3キャッシュ(MB)メモリcTDP(W)
EPYC ジェノバ 965411,805ドル96 / 192該当なし2.4 / 3.7360W38412チャネルDDR5-4800320~400W
Xeon Max 948012,980ドル56 / 11264GB1.9 / 3.5350W112.512チャネルDDR5-4800該当なし

オンパッケージHBMを搭載した初のx86データセンター向けチップとしてフル生産体制に入ったIntelの56コアXeon Maxと、AMDの96コアフラッグシップEPYC Genoaが対決する。Intelは、オンボードメモリを搭載することで、小型ながらも低価格なこのチップが、HPC中心の様々なワークロードにおいてEPYCプロセッサに対して優位性を持つと主張しているが、オンボードアクセラレータは有効化されていない(奇妙なことに、Xeon Maxモデルではデータストリーミングアクセラレータのみが利用可能)。 

当然、これらのベンチマークは多くの異論なくしては成立しないだろう。AMD のチップには、特に高度に最適化された HPC 環境でより高いパフォーマンスを引き出せるアーキテクチャ固有の最適化が多数存在するからだ。しかし、ここで重要なのは、Intel が HBM 搭載 CPU は、HPC において、コアを多用する AMD の主力製品に匹敵する圧倒的な利点を提供できると主張している点だ。

注目すべきは、こうしたワークロードでは、コア数の多いチップでは、電力スケーリングとチップファブリックの両方が制約要因となる可能性があることです。そのため、これらのワークロードの一部は、AMDの64コアまたは56コアのGenoaのような、やや低性能のモデルを採用することで、より有利な結果に転じる可能性も考えられます。また、ここで紹介するIntelのチップはHBM2eメモリのみを使用し、DDR5は搭載されていません。そのため、AMDのGenoaはメモリ容量において圧倒的な優位性を持っています(DDR5容量1.5TBに対し、Xeon MaxはHBM2e容量128GB)。

AMDは、Milan-XプロセッサのL3キャッシュを3Dスタッキングすることでメモリを増強するという、やや異なるアプローチを採用しており、明日のイベントで新型Genoa-Xチップを発表すると予想されます。しかし、AMDはMilan-Xを、IntelがXeon Maxで行っているように、より広範なHPC市場向けではなく、特定の技術的ワークロード向けに位置付けています。

TCO: Intel Sapphire Rapids Xeon vs AMD EPYC Genoa

画像

1

6

一般的なワークロード: Intel Sapphire Rapids Xeon vs AMD EPYC Genoa
(画像提供:Intel)

総所有コスト (TCO) の計算方法についてはベンダーごとに独自の見解がありますが、その方法はすべて通常疑問視されるものです。全体的な TCO は展開によって大きく異なるため、より広範な傾向を示す確実な指標を導き出すのは非常に困難です。

Intelの見解は、TCO値を導き出すためにSPECベンチマークを使用することは、実際のユースケースを反映していないというものです。これは、上記の一般的なワークロードのセクションで簡単に触れました。そのため、Intelはここで、様々なタイプのデプロイメントと、AMDのEPYCではなくIntelチップを使用することで得られるコスト削減の例を幅広く提供しています。QATバックアップなど、これらの比較の中にはSPECを使用した場合とそれほど変わらないものもあるため、鵜呑みにせず、アルバムに収録されている構成スライドも必ずご確認ください。

Intelはまた、Sapphire Rapidsの450以上のデザインウィンのうち200種類が既に出荷されており、導入ペースが加速していることを指摘しています。Intelはまた、Google Cloud(特にMount Evans IPU/DPUとの組み合わせ)でクラウドインスタンスが一般提供されており、AWSなど他の複数のクラウドプロバイダーでもプレビューインスタンスが既に利用可能になっていることも指摘しています。一方、AMDは、プレビュー版を含むGenoaインスタンスを、米国ではクラウドプロバイダーからまだ一般公開していません(中国ではパブリックインスタンスが利用可能であることは認識しています)。AMDのクラウドへの取り組みについては、明日のイベントで問い合わせ、必要に応じて更新する予定です。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

最後に、Intelは最近改訂されたデータセンターロードマップが予定通り進んでいることを改めて強調しました。ロードマップの詳細はこちらをご覧ください。上記のベンチマークテスト構成について、Intelにはまだいくつか質問が残っており、情報が入り次第、追記していきます。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。