
Intelは先日開催されたTech Tour USイベントの一環として、今後発売予定のPanther Lake SoC 3機種を発表しました。また、Panther Lake向けに2つの統合GPUタイルとして市場投入される新しいXe3グラフィックス・アーキテクチャの改良点と期待されるパフォーマンスについても説明しました。Panther Lake SoCの3つの主要構成の詳細と、Panther LakeのCPUリソースのより一般的な概要については、特集記事をご覧ください。
まず最初に、IntelはXe3がCelestialアーキテクチャに基づいていないことを強調しました。Xe3という名称は、Intelの過去のロードマップにおけるCelestialのコードネームの位置付けに都合よく対応しているにもかかわらずです。繰り返しますが、これはCelestialではありません。IntelはXe3 GPUをBattlemageファミリーに分類しています。これは、チップがソフトウェアに提供する機能が既存のXe2製品と類似しているためです。したがって、Panther Lake iGPUはArc Bシリーズの傘下に含まれることになります。Intelはこの命名方法が理想的ではないことを認めていますが、現時点ではこれが最善の選択肢であるようです。
構成要素
基本構成のXe3 Xe Core(以下、Xe3 Core)は、Xe2と同じ基本レイアウトを維持しています。浮動小数点演算と整数演算用のXe Vector Engine 8基、AIアプリケーション向け行列演算アクセラレーション用のXMX Engine 8基、そしてレイトレーシングユニット1基です。Intelによると、Xe3における変更は、利用可能なリソースの有効活用、現在進行中のArc GPUプロジェクト、そしてより大規模で高性能な製品の構築に重要なアーキテクチャのスケーラビリティ向上という2つの問題点の改善を目的としています。
以前の Xe2 レンダリング スライスには最大 4 つの Xe コアが含まれており、そこから Lunar Lake の iGPU (レンダリング スライス 2 つ) のような小さなグラフィック プロセッサから Arc B580 (レンダリング スライス 5 つ) のような大きなグラフィック プロセッサまですべて構成されていました。
一方、Xe3 レンダリング スライスは 6 つの Xe コアから始まり、これまでに 2 つの iGPU の作成に使用されています。
主役は、Panther Lake SoC の最高パフォーマンス バリアントでゲーム、コンテンツ作成、AI ワークロードを強化する 2 つのレンダリング スライスと 12 個の Xe3 コア部分です。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
もう 1 つは、ローエンドの Panther Lake 製品にグラフィック機能を提供する 4 つの Xe3 コア部分です。
鋭い洞察力を持つ読者は、Xe3のレンダースライスが6基のXeコアから始まるのに、Panther Lakeのより小型のXe3 GPUには4基しかXeコアが搭載されていないのはなぜかと疑問に思うかもしれません。Intelは、様々な製品ニーズを満たすために、グラフィックスエンジンのサイズをきめ細かく制御してきました(Arc以前から)。そのため、Xe3がレンダースライスあたり6基のXeコアから始まるとしても、スケールダウンできることは当然のことです。
大小さまざまな改善
Intel によれば、各 Xe3 Xe Core は、前世代機と比較して最大 25% 多くのスレッド (8 から 10) を実行中に保つことができ、コアはスレッドごとに各 Xe Vector Engine のレジスタ ファイルのパーティションを可変的に割り当てることができるため、使用率を向上できるという。
可変レジスタ割り当てはXe3の真に新しい機能です。以前のArc GPUでは、スレッドごとに粗いレジスタ割り当て戦略が採用されており、コアの利用可能なリソースを最大限に活用することが困難でした。Intelは、これがXe3アーキテクチャの重要な改善点であり、「パフォーマンスに劇的な効果をもたらす」と述べています。
Xe3のもう一つの大きな構造的変更点(少なくともArc iGPUとしては)は、Xeコアあたりの共有ローカルメモリの増加です。Xe3の共有ローカルメモリは256KBに増加し、Lunar LakeのXe2やMeteor Lakeの改良型Xe-LPGアーキテクチャの192KBから増加しました。Intelによると、この共有ローカルメモリから溢れ出るワークロードが、旧型のArc iGPUにおけるパフォーマンス低下の主な原因となっているため、共有ローカルメモリの増設は、パフォーマンスの大幅な向上につながる合理的かつ比較的シンプルなアーキテクチャの改良です。
この変更によって、Xe3 iGPU のリソースがデスクトップ Xe2 製品の基本リソースと同等になったという点は注目に値します。Arc B580 と B5700 は既に Xe Core あたり 256KB のローカルメモリを搭載していたため、今回の増加によるパフォーマンスの劇的な向上は期待できません。Intel がローカルメモリを増設しているという事実は、Battlemage ディスクリート GPU におけるこの構造のサイズ設定が正しい決定であり、Arc B シリーズのグラフィックススタックに引き継ぐ価値があることを示していると言えるでしょう。
キャッシュ階層のさらに奥では、さらに大きな変更が加えられています。Panther LakeのArc GPUは、最大12Xeコア構成で16MBの共有L2キャッシュを搭載しており、これはLunar Lakeの8Xeコアグラフィックエンジンの2倍に相当します。これは、このサイズのGPUとしては非常に巨大なL2キャッシュです。比較すると、Arc B580は、供給可能なXeコア数が67%多いチップでありながら、わずか18MB(12.5%増)のL2キャッシュしか搭載していません。
Intelによると、L2キャッシュの大容量化により、Panther Lakeのグラフィックプロセッサとメインメモリを接続するオンパッケージファブリックのトラフィックが削減されるという。これは、CPUやNPUとRAMへのアクセスを巡って競合する可能性のある統合グラフィックプロセッサにとって重要な考慮事項だ。Intelは、8MBのL2キャッシュを搭載した製品と比較して、ファブリックトラフィックが17%から36%削減されるというグラフを示した。
Xe3には、小規模ながらも重要な改良点もいくつか含まれています。Xe2のレイトレーシングエンジンは、レイと三角形の交差を非同期的に評価できますが、その評価結果は順番に解決する必要があります。この処理はスレッドソーティングユニットに委ねられており、以前はレイトレーシングパイプラインのバックアップを引き起こす可能性がありました。Intelによると、Xe3の改良されたレイトレーシングエンジンは、ソーティングユニットが処理に追いつくまでの間、新しいレイのディスパッチを動的に減速できるとのことです。
Intelはまた、GPU上の機能ユニット間でデータを渡す手段であるUnified Return Buffer(URB)と呼ばれるキャッシュの性能向上にも成功しました。Xe3 URBには、コンテキストスイッチのたびにバッファ全体をフラッシュすることなく部分的な更新を行うことができる新しい管理エージェントが搭載されており、機能ユニット間の通信コストを削減しています。
Xe3には、一般的なグラフィックタスクのパフォーマンスを向上させるために、固定機能ハードウェアにも改良が加えられています。同社によると、異方性フィルタリングレートは最大2倍、ステンシルテストレートも最大2倍向上するとのことです。
Lunar LakeのXe2 GPUと比較した独自のマイクロアーキテクチャベンチマークでは、12コアXe3 GPUの一部の処理において、Xe2とXe3の間でパフォーマンスに変化がないことがわかります。これは、レンダースライスあたりの利用可能なリソースが増加していないためです。Intelは、Lunar LakeからPanther Lakeの12コアXe構成へのXeコアの50%増加に伴い、他の一部の処理では直線的にスケーリングしていることを実証しています。
光線と三角形の交差テスト、異方性フィルタリング、メッシュ レンダリング、メモリからの分散読み取りなどの操作は、Xe3 でマイクロアーキテクチャとスケーリングの改善を示し始めており、それらはすべて Xe2 と比較して 2 倍以上の高速化を実現しています。
レジスタに大きな負荷をかけるシェーダーの場合、Xe3の動的レジスタ割り当ては、Intelの内部マイクロベンチマークにおいて1.9倍から3.1倍のパフォーマンス向上を実現します。現代のレンダリングパイプラインにおいて非常に重要かつ基本的な要素である深度テスト処理では、1.9倍から驚異的な7.4倍の高速化を実現します。
Intel は、Xe3 GPU のクロック速度などの詳細な仕様についてはまだ語っていないが、シリコンの初期段階での典型的な、大まかな電力対パフォーマンスのグラフを提供している。
最初の主張は、12 XeコアGPUがLunar Lakeよりもはるかに広いスケーリング範囲を持っていることを示しています。Lunar Lakeよりも大幅に高い処理能力が与えられた場合、12 XeコアArc GPUは50%以上のパフォーマンス向上を実現できます。このグラフでLunar Lakeと同じ処理能力レベルを目安にすると、パフォーマンスの向上ははるかに控えめですが、それでも効果はあります。
ワットあたりの性能向上について議論する際、IntelはArrow Lake-H iGPUを例に挙げ、同じ性能で40%以上の効率向上を実現していると主張しています。Arrow Lake-H iGPUは、発売から2年近く経つMeteor Lakeで初めて採用され、3年前のAlchemistアーキテクチャをルーツとする、老朽化したXe-LPGアーキテクチャをベースにしているため、Panther Lakeがこの対決でワットあたりの性能向上を実現してくれることを期待したいところです。
Panther LakeとLunar Lakeの効率性を直接比較すると、Xe3は依然としてワットあたりのパフォーマンスの向上を実現していますが、その差は小さく(目測で20%未満でしょう)、重要な比較に関する不満はさておき、ここで注目すべき点は、Lunar LakeのiGPU(少なくとも12 Xeコア搭載モデル)は、同社の過去の統合型GPUと比較して、ワットあたりのパフォーマンスの向上と、より幅広いパフォーマンススケーリングの可能性の両方を実現しているということです。
しかし、注目すべきは、これらの改善がすべてアーキテクチャの改良によって実現されていることです。Intelは、GPUタイルの製造に使用しているプロセス技術は(おそらくArrow Lakeと比較して)変更していないと述べており、消費電力とパフォーマンスの両方の向上は、前述のアーキテクチャの改良のみによってもたらされていると言えます。
IntelがXe3のパフォーマンスについて語るもう一つの方法は、Lunar LakeとPanther Lakeの両方で仮想フレームをレンダリングするのにかかる時間を比較することです。グラフィックスパフォーマンスに詳しい人なら誰でも知っているように、平均フレーム時間が短いほどフレームレートは高くなります。1フレームはベンチマークとしてはあまり役に立ちませんが、Intelのフレームタイムの推移を見ると、Xe3のマイクロアーキテクチャの改良に関連するいくつかの重要な改善が示されています。全体として、同じフレームは12コアのXe3 GPUで22.84ミリ秒でレンダリングされ、50%の短縮となります。
Xe Multi Frame Generationを実際に体験
もちろん、今日のGPUは単なるチップではなく、ハードウェアとソフトウェアのスタック全体の一部です。Intelは、NvidiaやAMDに追いつくために、XeSSテクノロジースイートへの投資を続けています。XeSS 2のアップスケーリングと2倍のフレーム生成サポートに加え、次期XeSSリリースでは、AIアクセラレーションによるマルチフレーム生成がIntelの武器に加わります。
NvidiaのDLSSマルチフレーム生成と同様に、XeSS MFGは2倍速、3倍速、4倍速モード(1、2、または3つのフレーム生成)を提供します。また、ゲーム開発者は、この機能を明示的にサポートするためにXeSS 2タイトルをアップデートする必要はありません。
すでに Xe フレーム生成をサポートしているタイトルの (小さな) リストはいずれも、Intel グラフィックス ソフトウェア コントロール パネルのオーバーライドを通じて XeSS MFG で動作します。
Tech Tourイベントでは、Panther LakeエンジニアリングシステムでXeSSマルチフレーム生成を実際に試す機会がありました。デモシステムを短時間試した限りではありますが、XeMFGの画質は実に印象的です。フレーム生成によるフレームレート向上を暗示するような、目障りなアーティファクトは一切見られませんでした。
しかし、入力遅延は、近日発売予定の「Painkiller」のようなテンポの速いシューティングゲームで素晴らしい体験をするには、許容範囲を少し超えすぎていました。ただし、アップスケーリングと品質設定を調整すれば、より応答性の高い体験を実現できたはずです。
IntelがXeMFGの許容入力遅延の指標としてベースラインフレームレートを使用していることに、少々不満を感じました。私たちは既に高レベルテストを実施し、この2つの測定値が必ずしも相関していないことを実証しました。Intelの担当者は、良好なフレーム生成エクスペリエンスを実現するために、ベースラインフレームレートを不当に低く提示しました。
今後、PresentMon が XeMFG とどのように相互作用するかを確認し、ゲームの入力遅延と、特定の Arc グラフィック プラットフォームでの XeMFG での使用の適合性を確実に測定できるかどうかを確認する必要があります。
ゲームのロード時間とゲーム内のスムーズさを改善するために、Intel は、Intel Graphics Software ユーティリティを使用して、ユーザーのシステムにインストールされている互換性のあるゲーム向けに、クラウドからコンパイル済みのシェーダーの配布を開始する予定です。
最近のAAAタイトルをロードしたことがある人なら誰でも、シェーダーの初回コンパイル時に発生する長いロード時間とゲーム中のカクツキの苦痛を経験したことがあるでしょう。Intelは、この問題を完全に解消するためにクラウドリソースを割り当てることは価値のある投資だと考えているようです。これはゲームチェンジャーではありませんが、Arcグラフィックス製品のユーザーにとってはシンプルで便利な特典です。
総じて、Panther LakeにおけるXe3と、より大型の12コアXe3 GPUの初体験は期待できるものでした。少なくとも今のところ、IntelはNVIDIAとの画期的な契約にもかかわらず、Arcグラフィックスへの注力を継続しており、Panther Lakeシステムが今年後半か来年初めに出荷され次第、Xe3をより深くテストするのが待ち遠しいです。
Tom's Hardwareのグラフィックス担当シニアアナリスト、Jeff Kampmanは、GPU、ゲームパフォーマンスなど、あらゆる分野を網羅しています。統合型グラフィックスプロセッサからディスクリートグラフィックスカード、そしてAIの未来を支えるハイパースケールシステムまで、GPU搭載のものなら何でもJeffが担当します。