86
Intel が Arc B580 および Arc B570 GPU をそれぞれ 249 ドルと 219 ドルで発表 — Battlemage が待望の競争をもたらす…
Intel Arc B580 限定版 Battlemage グラフィックス カード
(画像提供:Intel)

本日、IntelはArc B580とB570「Battlemage」GPUを発表しました。これはおそらく、グラフィックカード業界で最も隠し切れなかった秘密の一つでしょう。Intelは将来の製品についてコメントしていませんが、これらはデスクトップとモバイル市場の両方に向けて設計されたBattlemageファミリーのフルラインナップとなるであろう、最初の2製品です。12GBのVRAMを搭載したArc B580は248ドルで発売され、10GBのVRAMを搭載したB570は219ドルで販売されます。

スワイプして水平にスクロールします

グラフィックカード発売価格XeコアVRAM容量(GiB)TB PGPU コア (シェーダー)XMXコアレイトレーシングコアグラフィックスクロック(MHz)最大ブーストクロック(MHz)VRAM速度(Gbps)VRAMバス幅(ビット)レンダリング出力単位テクスチャマッピングユニットピークTFLOPS FP32ピーク XMX FP16 TFLOPS (INT8 TOPS)メモリ帯域幅(GBps)インタフェースTBP(ワット)発売日
アークB580249ドル2012190W25601602026702850191928016014.6117 (233)456PCIe 4.0 x81902024年12月13日
アークB570219ドル1810150W230414418250027501916080ですか?14412.7101 (203)380PCIe 4.0 x81502025年1月16日

画像

1

5

インテル アーク バトルメイジ B580 および B570
(画像提供:Intel)

IntelはArc B580の発表で、2つの重要な比較を行いました。1つ目は既存のArc A750との比較、2つ目はNvidia RTX 4060との比較です。テストは1440pで行われました。Intelによると、これが新しいGPUのターゲット解像度です。NvidiaはRTX 4060が1080pゲーミングをターゲットにしていると説明しましたが、これはGPUに8GBのVRAMしか搭載しないことが主な理由であり、利用可能なコンピューティング能力が重要だったとは考えにくいでしょう。

Intelは自社製のA750チップから始めて、47ゲームに及ぶ広範なテストスイート全体で平均24%のパフォーマンス向上を示しました。テストではXeSSが有効になっているゲームが20ありますが、Intel同士の対戦であるため、結果に大きな影響はないでしょう。パフォーマンス向上は0%(League of LegendsとDOTA 2はCPUの性能がほぼ完全に制限されているため)からFortniteの最大78%までで、31ゲームでは18~42%の向上が見られました。

RTX 4060と比較すると、Intelは同じ47ゲームのテストスイートで10%のパフォーマンス優位性を示していますが、今回はXeSSやDLSSアップスケーリングを有効化していません。アップスケーリングアルゴリズムは動作方法や画質が異なるため、これは公平な比較だと考えています。RTX 4060との比較では、-17%から最大+43%と、さらに大きなばらつきが見られます。6つのゲームではパフォーマンスの低下がわずかですが、10のゲームでは20%以上の向上が見られます。

ここで注目すべきは、当社のGPUベンチマークランキングでは、RTX 4060がArc A750(1440p Ultraテスト時)を14%上回り、Arc A770 16GBがA750を11%上回っていることです。この指標では、Intelの数値は当社の数値と一致しています。つまり、B580はRX 7600 XT(A750より23%高速)、あるいは2019年のNvidia RTX 2080 Superとほぼ同等のパフォーマンスを提供するとほぼ確信できます。

以前の噂では、B580はRTX 4060 Tiと同等の性能になると予想されていましたが、当社のテストでは、B580はA750を41%上回りました。もちろん、テストスイートは重要であり、現在、今回の発売と2025年に向けて、すべてのGPUテストを刷新中です。新しいゲームの多くは、ベースモデルの4060 Tiのような8GBカードでは、パフォーマンスの低下がより顕著になる可能性があります。

画像

1

1

インテル アーク バトルメイジ B580 および B570
(画像提供:Intel)

パフォーマンスと同じくらい重要なのは、おそらく価格設定でしょう。見出しで既にお伝えしましたが、パフォーマンスデータも加わり、249ドルという発売価格はさらに魅力的に見えます。Arc B580はAMDのRX 7600 8GBカードと直接価格競争することになりますが、Nvidiaは4060より下の世代の製品を供給していません。前世代のRTX 30シリーズに頼ることになりますが、RTX 3050以外はほとんど在庫がなく、比較対象としてはあまり意味がありません。

しかし、ここでも少なくともある程度の注意が必要です。RTX 4060は2023年半ば、つまり約18ヶ月前に発売されました。2025年半ばには後継機が発売される予定です。それが実際に起こるかどうかはまだ分かりませんが、40シリーズGPUの中でもおそらく最も性能が疑問視されていたこのGPUを打ち負かすのは、それほど難しいことではありません。さて、それではIntelの新しいArc B580とB570の仕様について見ていきましょう。

スワイプして水平にスクロールします

グラフィックカードアークB580アークB570
建築BMG-G21BMG-G21
プロセス技術TSMC N5TSMC N5
トランジスタ(10億個)19.619.6
ダイサイズ(mm^2)272272
Xeコア2018
GPU コア (シェーダー)25602304
XMXコア160144
レイトレーシングコア2018
グラフィックスクロック(MHz)26702500
最大ブーストクロック(MHz)28502750
VRAM速度(Gbps)1919
VRAM容量(GiB)1210
VRAMバス幅(ビット)192160
L2 (L1) キャッシュサイズ MiB18 (5)13.5 (4.5)
レンダリング出力単位8080ですか?
テクスチャマッピングユニット160144
ピークTFLOPS FP3214.612.7
ピーク XMX FP16 TFLOPS (INT8 TOPS)117 (233)101 (203)
メモリ帯域幅(GBps)456380
インタフェースPCIe 4.0 x8PCIe 4.0 x8
TBP(ワット)190150
発売日2024年12月13日2025年1月16日
発売価格249ドル219ドル

BattlemageのGPUクロックは、B580で最大2670MHz、B570で最大2500MHzと、より高くなる見込みです。ただし、Alchemistと同様に、これらはあくまでも概算値であり、実際のクロックはこれよりも高くなる可能性があります。例えば、Arc A770のグラフィックスクロックは2100MHzと公表されていますが、これは多くのワークロードを実行した際の控えめな推定値です。最大ブーストクロックは2400MHzで、私たちのテストでは平均クロックは2330~2370MHzでした。

各Xeコアには、8つのベクトルユニットと8つのXMXユニットが搭載されています。これはAlchemistの半分のユニット数ですが、各ユニットの幅が2倍になっています。新しいベクトルエンジンでは512ビット、XMXユニットでは2048ビットです。実質的には、Xeコア1台あたりに実行されるベクトル命令または行列命令の総数は同じです。XMXユニットでは、FP32ベクトル演算(FMA(Fused Multiply Add)を使用)が256回、FP16演算が2048回、またはINT8演算が4096回です。

ブーストクロックにコア数を掛け合わせると理論上の総演算性能が得られますが、ここからが興味深いところです。新しいBattlemage GPUの生のスペックと既存のAlchemist GPUの生のスペックを比較すると、Intelは設計の特定の側面で後退したように見えます。例えば、A750はFP32演算で17.2 TFLOPSですが、新しいB580は「わずか」14.6 TFLOPSです。ここでアーキテクチャの変更が影響しているのです。

大きな変更点の一つは、ネイティブのSIMD32実行ユニットからSIMD16ユニットへの切り替えです。SIMDとは「単一命令複数データ」の略で、数値は同時に演算されるデータ単位の数を表します。SIMD32ユニットでは、Alchemistは32個の値(通常はピクセル値)の塊を処理する必要がありましたが、SIMD16では16個の値しか必要ありませんでした。Intelによると、これによりGPU利用率が向上し、32個の実行スロットよりも16個の実行スロットの方が埋めやすいとのことです。結果として、Battlemageは理論上のTFLOPSあたりAlchemistよりもはるかに優れたパフォーマンスを発揮するはずです。

これは、Lunar Lakeの統合グラフィックス性能を調べた際に明らかになりました。Lunar Lakeの新しいXe2アーキテクチャは、FP32演算で最大4.0 TFLOPSの性能を備えていますが、Meteor Lakeの旧型のXeアーキテクチャは4.6 TFLOPSです。しかし、最終的にはLunar Lakeの方が720pで42%、1080pで32%高速化しました。メモリ帯域幅など他の要因も影響していますが、Intelが主張する性能を考えると、Battlemageは世代交代によるパフォーマンス向上をかなり実現すると思われます。

メモリサブシステムに関しては、いくつか注目すべき変更点があります。B580は192ビットインターフェースで12GBのGDDR6メモリを搭載しますが、B570は160ビットインターフェースで10GBのGDDR6メモリを搭載します。どちらの場合も、メモリの実効クロックは19Gbpsです。そのため、A580とA750(どちらも512GB/秒)と比較して総帯域幅がわずかに低下し、A770は560GB/秒です。朗報なのは、これらの新しい低価格/主流GPUはどちらも8GB以上のVRAMを搭載している点です。これは、多くの新しいゲームで制限要因となっています。

Battlemageは電力効率も向上します。グラフィックスの総消費電力はB580が190Wであるのに対し、A750は225Wです。つまり、Battlemageはパフォーマンスが24%向上する一方で消費電力は16%削減され、実質的な性能向上率は約50%に達することになります(実際の消費電力は未測定ですが、これに依存します)。Intelはまた、アーキテクチャのアップグレードにより、Xeコアあたりのパフォーマンスが70%向上すると主張しています。これについては、アーキテクチャのセクションで詳しく説明します。

電力効率の向上は、Alchemistで使用されていたN6ノードからTSMCのN5ノードに移行したことによるところが大きい。N5は密度と消費電力の面で大きなメリットをもたらし、それはダイサイズ全体にも反映されている。A770に搭載されたACM-G10 GPUは406mm²のダイに217億個のトランジスタを搭載し、BMG-G21は272mm²のダイに196億個のトランジスタを搭載していた。つまり、Battlemageの全体の密度は72.1MT/mm²で、Alchemistの53.4MT/mm²を大きく上回っている。

ただし、Nvidiaの各種Ada Lovelace GPUは、TSMCのカスタム4Nプロセスで製造され、総トランジスタ密度が109~125 MT/mm^2であることに注意してください。AMDのRDNA 3 GPUも、TSMCのN5ノードを採用したメインGCDで140~152 MT/mm^2の密度です。つまり、Intelはトランジスタ密度やダイサイズにおいて依然として競合他社に追いついていないということです。ただし、AMDはRDNA 3でGPUチップレットを採用することで、競合他社の動向を巧みに把握しています。

そして最後に、IntelはB580とB570にPCIe 4.0 x8インターフェースを採用します。低価格帯のメインストリーム向け製品であることを考えると、これは大きな問題にはならないでしょう。AMDとNvidiaはどちらも、下位グレードの製品ではより狭いx8インターフェースを採用しています。おそらくIntelは、より広いx16インターフェースは不要と判断したのでしょう。同様に、トレース長が短く消費電力が高い傾向にあるPCIe 5.0への移行も十分なメリットがないと判断したのでしょう。

画像

1

12

インテル アーク バトルメイジ B580 および B570
(画像提供:Intel)

コア仕様の説明はここまでにして、様々なアーキテクチャのアップグレードについて詳しく見ていきましょう。最初のArc GPUは、20年以上の休止期間を経てIntelが専用GPU分野に復帰したことを示すものであり、Xeグラフィックスを搭載したIntel DG1は限定リリースの先駆けとしてその道を切り開きました。Intelは長年にわたり統合型グラフィックスに取り組んできましたが、その手法は根本的に異なります。

Intel Arc Alchemistは、ベースアーキテクチャをスケールアップし、消費電力とパフォーマンスを大幅に向上させようとする最初の本格的な試みでした。しかし、ハードウェア、ソフトウェア、ドライバの両面で、多くの成長痛を伴いました。Battlemageは、Intelが前世代から学んだすべての知見を活用し、パフォーマンスの特定の側面を劇的に向上させる変更を組み込んでいます。Intelのグラフィックスチームは、GPUコアの使用率向上、ワークロード分散の改善、ソフトウェアオーバーヘッドの削減を目指しました。

上記セットの5枚目のスライドでは、すべての変更点の概要を説明しています。IntelはExecute Indirectのネイティブサポートを追加し、特定のタスクのパフォーマンスを大幅に向上させました。SIMD32 ALU(算術論理ユニット)からSIMD16 ALU(算術論理ユニット)への変更については既に述べました。レンダリングスライスあたりの頂点およびメッシュシェーディングパフォーマンスはAlchemistと比較して3倍向上しており、Z/ステンシルキャッシュ、プリミティブのカリングの早期化、テクスチャサンプリングにも改善が見られます。

レイトレーシングユニットにも大幅なアップグレードが施され、各ユニットは3つのトラバーサルパイプラインを備え、1サイクルあたり18個のボックス交差と2個のトライアングル交差を計算できるようになりました。ちなみに、Alchemistは2つのBVHトラバーサルパイプラインを備え、1サイクルあたり12個のボックス交差と1個のトライアングル交差を処理できました。つまり、Battlemage RTの各ユニットのレイトレーシング性能はボックス交差において50%向上し、レイトライアングル交差の数は2倍になっています。また、Battlemageには16KBの専用BVHキャッシュが搭載されており、これはAlchemistのBVHキャッシュの2倍のサイズです。

Battlemageはメモリサブシステムのキャッシュ階層もアップデートしました。各Xeコアには256KBの共有L1/SLMキャッシュが搭載されており、これはAlchemistの192KBの共有L1/SLMキャッシュよりも33%大きいです。L2キャッシュも増加していますが、増加量は比較対象によって異なります。BMG-G21は最大18MBのL2キャッシュを搭載していましたが、ACM-G10は最大16MBのL2キャッシュを搭載していました。しかし、A580ではこれが8MBに削減されており、おそらく将来のGPU、例えばB770/B750用のBMG-G20などはL2キャッシュの容量を増やすでしょう。これが実効メモリ帯域幅にどのような影響を与えるかはまだ分かりません。

サポートされている数値形式の大部分はAlchemistと同じで、INT8、INT4、FP16、BF16がサポートされています。Battlemageでは、新たにネイティブINT2とTF32がサポートされました。INT2は非常に小さな整数のスループットをさらに2倍に高めることができ、TF32(テンソル浮動小数点32)はFP16やBF16よりも精度の高い選択肢となるでしょう。TF32は19ビット形式で、8ビットの指数と10ビットの仮数部(数値の小数部)で構成されます。結果として、FP32と同じダイナミックレンジを持ちながら精度は低くなりますが、FP32をサポートしていないXMXコアではBF16/FP16の半分の速度で動作します。TF32は特定のAIワークロードにおいて効果的であることが実証されています。

Battlemageは3ウェイ命令同時発行をサポートするようになりました。これにより、各サイクルで浮動小数点命令、整数/拡張演算命令、XMX命令をそれぞれ1つずつ独立して発行できます。Alchemistも命令同時発行をサポートしており、同様の3ウェイ同時発行が可能と思われていましたが、Intelからの情報によると、Battlemageはこの分野でより堅牢であるとのことです。

BMG-G21のフル設計には、それぞれ4つのXeコアを搭載した5つのレンダースライスが搭載されています。これにより、合計160個のベクターエンジンとXMXエンジン、20個のレイトレーシングユニットとテクスチャサンプラーが利用可能になります。また、10ピクセルのバックエンドも搭載されており、それぞれが8つのレンダリング出力を処理できます。噂によると、Intelはさらに大型のBMG-G10 GPUも開発中で、レンダースライス数とメモリインターフェースが拡張される予定です。Alchemistのように、最大​​8つのレンダースライスと32個のXeコアを搭載するのでしょうか?その可能性は高いと思われますが、現時点では他のBattlemage GPUについては公式発表がありません。

画像

1

22

インテル アーク バトルメイジ B580 および B570
(画像提供:Intel)

コアハードウェアに加え、IntelはXeSSアップスケーリング技術についても多くのことを語りました。IntelがXeSSにフレーム生成と低遅延技術を追加するのは当然のことです。これらはすべてXeSS 2ブランドに統合され、XeSS-FG、XeSS-LL、XeSS-SR(それぞれフレーム生成、低遅延、超解像度の略)というサブブランドが設けられています。

XeSSはNvidiaのDLSSと同様の道を歩み続けていますが、いくつかの顕著な違いがあります。まず、XeSS-SRはDP4a命令(基本的には最適化されたINT8シェーダー)を介してIntel以外のGPUをサポートします。ただし、XeSSはDP4aモードとXMXモードで動作が異なり、XMXではArc GPU(基本的にはAlchemist、Lunar Lake、またはBattlemage)が必要です。

XeSS-FGフレーム生成は、DLSS 3やFSR 3のフレーム生成と同様に、既にレンダリングされた2つのフレームの間に中間フレームを補間します。ただし、Nvidiaがフレーム生成に最新のOFA(オプティカルフローアクセラレータ)を搭載したRTX 40シリーズを必要とするのに対し、IntelはXMXコアを介して必要なオプティカルフローの再投影をすべて行います。さらに、モーションベクトルの再投影も行い、さらに別のAIネットワークを用いてこれら2つをブレンドすることで「最適な」出力を得ています。

つまり、XeSS-FGはすべてのArc GPUで動作しますが、Meteor LakeのiGPUでは動作しません。Meteor LakeはXMXをサポートしていないためです。また、少なくとも当面は、XeSS-FGはArc以外のGPUでは動作しません。IntelがXeSS-SRとDP4aモードで行ったように、他のGPUでも動作させる方法を見つける可能性はありますが、パフォーマンス要件の制約から、実現は難しいと思われます。

XeSS-LLはフレームジェネレータと連携して、フレームジェネレータの補間によって生じる遅延を削減します。つまり、特定の処理を追加のゲームロジック計算の前に移動することで、ユーザー入力からその入力がディスプレイに反映されるまでの遅延を削減します。原理的にはNvidiaのReflexやAMDのAnti-Lag 2とほぼ同等ですが、実装は必ずしも同一ではありません。

Intelによると、Reflexを使用したDLSS 3やAnti-Lag 2を使用したFSR 3と同様に、XeSS 2でSR、FG、LLを実行すると、標準のXeSS-SRと同じレイテンシを実現できるとのことです。F1 24を使用した例では、ネイティブレンダリング時の基本レイテンシは57msでしたが、XeSS-LLを使用すると32msに短縮されました。XeSS-SRアップスケーリングをオンにすると、レイテンシは28msに短縮され、SRとLLの組み合わせではレイテンシは19msになりました。最終的に、XeSS SR + FG + LLは、SRのみを実行した場合と同じ28msのレイテンシになりますが、フレームレートは93fpsではなく152fpsになります。つまり、同じレベルの応答性を得ながら、より高い(よりスムーズな)フレームレートを実現できる可能性があります。

XeSSは2022年のリリース以来、ゲーム開発者に広く採用されています。現在、XeSS 1.xの何らかのバージョンをサポートするゲームは150を超えています。しかし、FSR 3やDLSS 3と同様に、フレーム生成と低遅延のサポートを追加したい場合は、開発者はXeSS 2に移行する必要があります。既にXeSSをサポートしている既存のゲームの中には、ほぼ確実にアップグレードされるものもありますが、現時点でIntelが今後数ヶ月以内にXeSS 2に対応するゲームを8つしか発表しておらず、今後さらに増える予定です。

XeSS 1.x 対応のゲームでは、GPU を交換しても XeSS 2 に対応できません。XeSS 2 にはゲームが対応していない他の要件があるためです。しかし、FSR 3 や DLSS 3 で見られたように、モッダーが少しの工夫で XeSS 2 対応をハックすることは可能でしょう。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

画像

1

11

インテル アーク バトルメイジ B580 および B570
(画像提供:Intel)

Intelは、アップデートされたXMXエンジン、AI全般、その他のソフトウェアの変更、そしてオーバークロックについても時間をかけて説明しました。これらについては、上記のスライドでほとんど説明されているため、ここではあまり詳しく説明しません。AIに関心のある方は、急速に発展しているこの分野で何が起こっているかを既にご存知でしょう。

Intelが示した点の一つは、複数のテキスト生成モデルを用いて、1秒あたりのトークン数という点でLLM性能が向上していることです。Intelによると、モデルによって異なりますが、Arc B580はRTX 4060よりも約40~50%高いAI性能を発揮します。RTX 4060はAIのパワフルなマシンではないため、これはかなり容易な目標達成を狙ったものです。ただし、少なくともBattlemageはAI分野でAMDのRDNA 3製品を上回るはずです。

ソフトウェア面では、Intelはディスプレイ、3Dグラフィックプロファイル(ゲーム/アプリケーションごと)、オーバークロックに関する新しい設定をドライバーに追加する予定です。オーバークロック情報から得られる興味深い点の一つは、ゲーム中のブーストクロックは通常2800MHz程度で、公式グラフィッククロックよりも約150MHz高いということです。しかし、それでも電力制限に直面することがあり、オーバークロック制御によってクロックオフセット、より高い電力制限、そしてより高い電圧の適用が可能になります。

クロックオフセットを200MHz上げるだけで、標準クロックより約125MHz高いクロックが得られました。電力制限を120%に上げると、さらに約125MHz向上しました。そして最後に、クロックオフセットと電力制限に加えて電圧を上げると、平均GPUクロックは3150MHz台になりました。もちろん、オーバークロックの場合と同様に、安定性と結果は保証されません。また、過度に設定すると保証が無効になる可能性があります。

画像

1

3

インテル アーク バトルメイジ B580 および B570
(画像提供:Intel)

最後に、Intel独自のArc B580 Limited Editionグラフィックカードをご紹介します。Alchemist A750/A770のデザインから明らかな変更点がいくつかあり、特に背面ファンがヒートシンクの冷却フィンを遮ることなく吹き抜けるようになりました。最近のAMDやNvidiaのGPUにも同様の設計が見られ、温度上昇を抑えつつノイズレベルも低減しています。

IntelはArc B580グラフィックスカードを開発しますが、B570モデルは開発しません。B570カードはすべてIntelのAIC(アドインカード)パートナーから提供されます。そして、この分野には新たなブランドがいくつか登場しています。Acer、ASRock、Gunnir、SparkleはすでにArc Alchemist GPUを開発しており、今回MaxsunとOnixがArcに加わります。Onixについては初めて聞きました。Maxsunはアジア市場に重点を置いている傾向があり、AmazonなどでMaxsunのGPUを見つけることもあります。

今後数週間かけてArc B580のテストを行うのを楽しみにしています。今回のテストでは、新しいGPUテストスイートとテストシステムを導入する予定です。Battlemageは今のところ新しいレベルのパフォーマンスに到達しているようには見えませんが、その価値提案は非常に有望です。

250ドルのグラフィックカードで12GBのVRAMを搭載することは、少なくとも新品のハードウェアでは、これまでは現実的ではありませんでした。AMDのRX 6700 XT/6750 XTは300ドル前後で底をつき、NvidiaのRTX 3060 12GBもほぼ300ドル以上を維持しました。Arc B580のパフォーマンスは、Nvidiaの旧型3060を楽々と上回るはずですが、RTX 4060 Tiには概ね及ばないようです。ただし、価格も大幅に下回っています。

レイトレーシングやラスタライズゲームを含め、B580はGPU分野に待望の競争力をもたらすはずです。約10日後に完全版レビューを公開しますので、ぜひご覧ください。Intelのスライド資料全文は以下に掲載していますので、もし掲載できなかった詳細をご覧になりたい方は、ぜひご覧ください。

画像

1

68

インテル アーク バトルメイジ B580 および B570
(画像提供:Intel)

ジャレッド・ウォルトンは、Tom's Hardwareのシニアエディターで、GPU全般を専門としています。2004年からテクノロジージャーナリストとして活躍し、AnandTech、Maximum PC、PC Gamerなどで執筆活動を行っています。初代S3 Virgeの「3Dデセラレータ」から最新のGPUまで、ジャレッドは最新のグラフィックストレンドを常に把握しており、ゲームパフォーマンスに関する質問は彼にお任せください。