Ampereアーキテクチャは、GeForce RTX 3090、GeForce RTX 3080、GeForce RTX 3070、そして今後発売されるその他のNVIDIA GPUに搭載されます。Team Greenによる次期メジャーアップグレードであり、パフォーマンスの飛躍的な向上が期待されています。現時点での詳細(カードは今月下旬、3070は10月に発売予定)に基づくと、これらのGPUはGPU階層のトップに躍り出ると予想され、上位のグラフィックカードを凌駕するでしょう。それでは、Ampereアーキテクチャの仕様、機能、その他のパフォーマンス強化など、現在わかっていることを詳しく見ていきましょう。
[注記: CUDA コアとそれがパフォーマンスに与える影響に関する情報の一部を更新し、正確なダイ サイズとトランジスタ数を提供し、DLSS 2.1 とレイ トレーシングの改善に関する詳細を追加しました。]
NvidiaのAmpere GPUの発表は、2016年のPascalと2018年のTuring GPUを融合させたような印象です。NvidiaのCEO、ジェンスン・フアン氏は5月14日にデータセンター向けのA100を発表し、今後の展望を初めて公式に垣間見せてくれましたが、A100はGeForceカード向けに設計されたものではありません。これは、GP100の後継機であるVolta GV100の後継機です。コンシューマーモデルは機能セットが異なり、GA102、GA104などの独立したGPUを搭載しています。コンシューマー向けカードはGDDR6X/GDDR6を採用していますが、A100はHBM2を採用しています。
NVIDIAは、GPUの基盤アーキテクチャに加え、グラフィックスカードのコア設計も刷新し、冷却と消費電力に重点を置きました。NVIDIAの動画で述べられているように、「GPUのパフォーマンスについて語る際、重要なのは、供給できる電力と消費できる電力が多ければ多いほど、パフォーマンスが向上するということです。」改良された冷却ソリューション、ファン、そしてPCB(プリント基板)はすべて、NVIDIAのAmpere GPUの全体的なパフォーマンス向上に貢献しています。もちろん、サードパーティの設計はNVIDIAの設計から自由に逸脱することができます。
TSMCの12nm FinFETノードからTSMC N7およびSamsung 8Nへの移行に伴い、多くの人がAmpereがより低い消費電力でより優れたパフォーマンスを提供すると期待していました。しかし、Nvidiaは、少なくとも製品スタックの最上位においては、追加のトランジスタと効率をすべて活用し、より多くを提供するという単純な方針を採用しました。例えばGA100は、540億個のトランジスタと826平方mmのダイサイズを備えています。これはGV100と比較してトランジスタ数が156%という驚異的な増加ですが、ダイサイズはわずか1.3%しか大きくなっていません。コンシューマー向けGPUもトランジスタ数が増加している一方で、ダイサイズは大幅に縮小されています。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
7nm/8nmは、同じ性能でより高い効率性を実現する一方で、同じ消費電力ではるかに高い性能も実現します。Nvidiaは中間的なアプローチを取り、より高い消費電力でさらに高い性能を提供しています。データセンター向けモデルのV100は300Wでしたが、新型Nvidia A100では400Wにまで引き上げられています。コンシューマー向けモデルでも同様です。GeForce RTX 2080 Tiは250/260W、Titan RTXは280Wでした。RTX 3090は、シングルGPUとしては史上最高のTDPである350W(もちろんA100は除く)を搭載し、RTX 3080は320WのTDPとなっています。
これはエンドユーザーにとって何を意味するのでしょうか?電源ユニットのアップグレードが必要になる可能性や、Nvidia製モデルでは12ピン電源コネクタの使用が必要になることに加え、パフォーマンスが飛躍的に向上することを意味します。これは、私が記憶している限り、Nvidiaの製品としては単一世代で最大のパフォーマンス向上です。後ほど説明するアーキテクチャのアップデートと組み合わせることで、NvidiaによるとRTX 3080はRTX 2080の2倍のパフォーマンスを発揮します。さらに、レイトレーシングやDLSSなどのワークロードが使用される場合、その差はさらに広がる可能性があります。
幸いなことに、価格を比較する方法にもよりますが、前世代のGPUと比べて大幅に悪くなることはありません。GeForce RTX 3090は1,499ドルで発売予定です。これはシングルGPUのGeForceカードとしては記録的な価格であり、事実上Titanファミリーの後継機となります。一方、RTX 3080は699ドル、RTX 3070は499ドルで発売され、前世代のRTX 2080 SuperおよびRTX 2070 Superと同じ価格です。Ampereアーキテクチャは価格に見合う価値があるのでしょうか?実際にハードウェアをテストするにはもう少し待たなければなりませんが、少なくともスペックは非常に有望に見えます。
効率性の問題にも簡単に触れておきましょう。Jensen氏はプレゼンテーションの中で、AmpereはTuringの1ワットあたりの性能が1.9倍であると述べました。これは印象的ですが、これは理論上の性能向上であり、初期段階のGPUで実際に実現されるものではないようです。
RTX 3080を例に挙げてみましょう。TDPは320Wで、RTX 2080の215W TDPより約50%高くなっています。たとえRTX 2080の2倍の性能だとしても、ワットあたりの性能向上はわずか35%に過ぎません。
NVIDIAは1.9倍という数字を、fps/Wではなく、Turingと同等のパフォーマンスレベルを達成するために必要な電力量に基づいて算出しています。Turing GPUを使用し、特定のゲームでパフォーマンスを60fpsに制限した場合、Ampereでも同じことを行うと、Ampereは消費電力を47%削減できるとNVIDIAは主張しています。
それはそれほど驚くべきことではありません。ノートパソコンでは、電力制限のあるGPU設計が長らく見られてきました。例えば、RTX 2080を搭載したノートパソコンは、理論上はデスクトップ版とほぼ同等のクロック周波数を実現できますが、消費電力ははるかに低く制限されているため、実際のクロック周波数とパフォーマンスは低くなります。設計の限界に近づくと、パフォーマンスが10%低下しても、効率は30%向上することがよくあります。
AMDのR9 Nanoは、電力と電圧の限界で効率がいかに低下するかを示すもう一つの例です。R9 Fury XはTDP275Wで、4096個のシェーダーを搭載し、クロックは1050MHzでした。R9 Nanoも同じ4096個のシェーダーを搭載していましたが、クロックは最大1000MHzで、TDPは175Wに制限されていました。実際のパフォーマンスは通常925MHzに近かったものの、消費電力は依然として3分の1に抑えられています。
Nvidia Ampere アーキテクチャの仕様
データセンター向けGA100に加え、Nvidiaは2020年に少なくとも3つのAmpere GPUを発売する予定です。来年には最大3つのAmpereソリューションが追加される可能性がありますが、それらはまだ確定しておらず(この表にも記載されていません)、今後の展開は未定です。以下に概要をまとめます。
スワイプして水平にスクロールします
グラフィックプロセッサ | GA100 | GA102 | GA102 | GA104 |
グラフィックカード | エヌビディアA100 | GeForce RTX 3090 | GeForce RTX 3080 | GeForce RTX 3070 |
プロセス(nm) | TSMC N7 | サムスン 8N | サムスン 8N | サムスン 8N |
トランジスタ(10億個) | 54 | 28.3 | 28.3 | 17.4 |
ダイサイズ(mm^2) | 826 | 628.4 | 628.4 | 392.5 |
GPC構成 | 8x16 | 7x12 | 6x12 | 6x8 |
SMS | 108 | 82 | 68 | 46 |
CUDAコア | 6912 | 10496 | 8704 | 5888 |
RTコア | なし | 82 | 68 | 46 |
テンソルコア | 432 | 328 | 272 | 184 |
ブーストクロック(MHz) | 1410 | 1700 | 1710 | 1730 |
VRAM速度(Gbps) | 2.43 | 19.5 (GDDR6X) | 19 (GDDR6X) | 14 (GDDR6) |
VRAM(GB) | 40(最大48) | 24 | 10 | 8 |
バス幅 | 5120(最大6144) | 384 | 320 | 256 |
ROP | 128 | 112 | 96 | 96 |
TMUs | 864 | 656 | 544 | 368 |
GFLOPS FP32 | 19492 | 35686 | 29768 | 20372 |
RT TFLOPS | 該当なし | 69 | 58 | 40 |
テンソル TFLOPS FP16 (スパース) | 312 (628) | 143 (285) | 119 (238) | 81 (163) |
帯域幅(GB/秒) | 1555 | 936 | 760 | 448 |
TBP(ワット) | 400(250 PCIe) | 350 | 320 | 220 |
発売日 | 2020年5月 | 2020年9月24日 | 2020年9月17日 | 2020年10月15日 |
発売価格 | DXG A100(8xA100付き)199,000ドル | 1,499ドル | 699ドル | 499ドル |
最大かつ最強のGPUはA100です。最大128個のSMと6個の8GB HBM2スタックを搭載していますが、Nvidia A100では現在、108個のSMと5個のHBM2スタックのみが有効になっています。将来のバージョンでは、GPUとRAMのフル構成が採用される可能性があります。しかし、GA100は、以前のGP100やGV100がデータセンターやワークステーション専用だったように、コンシューマー向け製品にはなりません。レイトレーシングハードウェアがなければ、GA100はGeForceカードとして到底実現可能ではありません。ましてや、巨大なダイ、HBM2、シリコンインターポーザーのコストは言うまでもありません。
コンシューマーモデルに目を向けると、NVIDIAは大きな変更を加えています。NVIDIAはSMあたりのFP32 CUDAコア数を倍増させたようで、シェーダー性能が大幅に向上しています。GA102では、合計7つのGPCクラスターがあり、それぞれに12個のSMが搭載されているため、最大84個のSM構成となります。このうち、RTX 3090では82個が有効になっているのに対し、RTX 3080では68個しか有効になっていません。HBM2とシリコンインターポーザーも廃止され、3090では16ビットハーフ幅インターフェースで動作する24個のGDDR6Xチップ、3080では32ビットインターフェースで動作する10個のGDDR6Xチップに置き換えられています。
SMあたりのCUDAコア数が倍増したことで、10496個のCUDAコアに相当し、そのうち2個はFP64対応CUDAコアです。つまり、FP64パフォーマンスはFP32パフォーマンスの1/64です。Nvidiaは残りのFP64機能を取り除き、代わりに第2世代RTコアを搭載しています。また、第3世代Tensorコアが4個搭載されており、それぞれが前世代Turing Tensorコアのクロックあたり4倍のスループットを実現しています。
1700MHzのブーストクロックは、FP32演算性能で35.7TFLOPSのポテンシャルを発揮し、19.5GbpsのGDDR6Xは936GBpsの帯域幅を実現します。念のため補足すると、RTX 3090はRTX 2080 Tiの2倍以上の性能を発揮する可能性があります。
RTX 3090はほぼ完全なGA102チップであるため、現時点ではそれ以上の高速化の余地はあまりありません。将来、GA102をフルに活用したTitanカードが登場する可能性はあるでしょうか?もちろんありますが、3090と同じクロックでは2.4%しか高速化しません。21Gbpsのメモリ搭載は改善につながるかもしれませんが、現実的にはNvidiaがAmpere向けにTitanカードをリリースするとは思えません。RTX 3090は、コンシューマー向けに超高性能を追求したカードであり、サードパーティがカスタムデザインを作成できるようになっています(前世代のTitanカードとは異なります)。
しかし、CUDAコアが単純に倍増しただけではありません。具体的には、Nvidiaのコンシューマー向けGPU向けAmpereアーキテクチャには、FP32命令とINT命令を処理できるCUDAコアセットと、FP32命令のみを処理できるCUDAコアセットが新たに追加されました。
これがパフォーマンスにどのような影響を与えるかを理解するには、NVIDIAがFP32 + INTの同時実行サポートを追加したTuringアーキテクチャまで遡る必要があります。AmpereがFP32 + FP32 + INTの同時実行が可能になったと考えているなら、それは間違いです。そうではなく、FP32 + (FP32またはINT)の同時実行です。つまり、理論上のTFLOPSは劇的に向上しましたが、ゲームパフォーマンスがTFLOPSに直接比例することはないということです。
Nvidiaは、Turingに関して、多くのゲーム(幅広いゲームを対象とする)において、CUDAコアの計算の約35%が整数ワークロードであると述べています。メモリポインタのルックアップはその典型的な例です。この比率が今後も維持されれば、ゲーム内のGPU計算の3分の1が整数計算となり、SMのFP32+INT部分の半分以上を占める可能性があります。
Nvidia自身のパフォーマンス数値がこれを反映しています。RTX 3080とRTX 2080を比較した場合、世代間で最大2倍のパフォーマンス向上が示されていますが、TFLOPSだけを見ると、RTX 3080は理論上のパフォーマンスのほぼ3倍です。しかし実際には、RTX 2080はFP32とINTをそれぞれ約10 tera-OPSで実行できるのに対し、RTX 3080はFP32が約30 tera-OPSであるのに対し、INTはわずか15 tera-OPSです。上記の3分の2という考え方を適用すると、1つのコアセットでINTを10 TOPS、FP32コア全体でFP32を15+5 TFLOPS実行することになるかもしれません。
コンピューティング性能は依然として大幅に向上していますが、帯域幅はそれほど大きく伸びていないことにも注目すべきです。RTX 3080はFP32のポテンシャルが3倍、INTのポテンシャルが1.5倍、そして帯域幅も約1.5倍(正確には1.53倍)です。メモリ圧縮の改善によって実効帯域幅は向上している可能性はありますが、純粋なFP32の理論テストを実施しない限り、FP32性能が3倍近く向上することはまずないでしょう。
少々意外なことに、RTX 3080も3090と同じGA102チップを搭載していますが、今回は68個のSMが有効になっています。NVIDIAはAmpereの歩留まりは良好だとしていますが、これは明らかに部分的に有効になっているGPUを使用できることにも起因しています。これにより、RTX 3080は依然として非常に印象的な8704個のCUDAコアを搭載しています。メモリチャネルのうち2つは無効化されており、10GBのGDDR6Xメモリが搭載されています。
以前の世代とは異なり、RTX 30シリーズGPUのクロック周波数は3機種とも1700~1730MHzと比較的近い値となっています。理論上のパフォーマンスでは、RTX 3080は29.8 TFLOPS、760 GBpsの帯域幅を実現し、NVIDIAによると現行のRTX 2080の2倍の速度を誇ります。
上で述べたように、これは必ずしも合致しません。理論上のFP32 TFLOPS性能はほぼ3倍ですが、コア上のFP32とFP32/INTの分割、そしてメモリ帯域幅などの他の要素を考慮すると、全体として2倍の向上はハイエンドで実現されることになります。
RTX 3070はGA104 GPUに切り替わり、GA102と比較して引き続き最適化されています。GA102は7つのGPCとそれぞれ12個のSMを搭載していましたが、GA104は6つのGPCとそれぞれ8個のSMを搭載し、最大48個のSMを備えています。RTX 3070は3090と同様に、歩留まり向上のために2つのSMが無効化されており、アクティブなSMは46個、CUDAコアは5888個となっています。当然のことながら、サイズもトランジスタ数も少なく、174億個のトランジスタと392.5mm角のダイサイズとなっています。
3090/3080とは異なり、RTX 3070はGDDR6を採用し、256ビットバス上に8GBのメモリを搭載した8チャネルを備えています。GA104はGDDR6とGDDR6Xの両方をサポートしているのでしょうか?残念ながら不明です。興味深いことに、GDDR6メモリの速度はTuring GPUと同じ14Gbpsのままです。つまり、一部のワークロードでは帯域幅のボトルネックが発生する可能性があります。ただし、ROPは3080と同じ96で、前世代のRTX 2070 Superよりも50%増加しています。RTX 3070は10月15日に発売されるので、今後数日中に詳細が明らかになるはずです。
RTX 3070は20.4TFLOPSと448GBpsの帯域幅を実現します。NVIDIAによると、RTX 3070は最終的にはRTX 2080 Tiよりも高速になるとのことですが、VRAM容量が11GB対8GBの場合、元ヘビー級チャンピオンであるRTX 2080 Tiが優位に立つケースもあるかもしれません。繰り返しになりますが、アーキテクチャの強化は間違いなく役立つでしょう。さて、早速Ampereアーキテクチャについてお話ししましょう。
NvidiaのGA100 Ampereアーキテクチャ
GA100とNvidia A100の発表、そしてGeForce RTX 30シリーズの発表を経て、今後の展望が明確になりました。Nvidiaは今後もGPUを2つのラインに分け、1つはデータセンターとディープラーニングに、もう1つはグラフィックスとゲームに特化しています。データセンター向けGA100に加えられた変更の一部はコンシューマー向けラインにも反映されていますが、FP64向けのTensorコアの強化には適用されません。Ampereアーキテクチャについて、GA100から順にご紹介します。
まず、GA100には多くの新機能が搭載されています。大まかに言うと、GPUはGV100の最大80個のSM/5120個のCUDAコアから、GA100では128個のSM/8192個のCUDAコアに増加しました。これはコア数が60%増加したことを意味しますが、GA100はトランジスタ数を2.56倍も使用しています。これらの追加トランジスタはすべて、アーキテクチャの強化に使用されています。詳細については、NVIDIAのA100アーキテクチャに関するホワイトペーパーをご覧ください。ここで簡単に概要を説明します。
GA100のテンソルコアは、最も大幅なアップグレードを受けています。前世代のGV100テンソルコアは、2つの4x4 FP16行列を演算し、2つの行列と3つ目の行列を1サイクルごとに4x4x4の積和演算(FMA)を実行できました。これはテンソルコア1つあたり1サイクルあたり128回の浮動小数点演算に相当し、NVIDIAはGV100のFP16ピークスループットを125 TFLOPSと評価しています。
比較すると、GA100テンソルコアは1クロックあたり8x4x8のFMA行列演算を実行できます。これは、テンソルコアあたり合計256回のFMA、または512回のFP演算に相当し、スループットは4倍です。SMあたりのテンソルコア数が半分になったとしても、SMあたりのパフォーマンスは依然として2倍です。
GA100は、テンソルコアにスパース性のサポートも追加しました。これは、多くのディープラーニング演算では重み付けされた値が大量に生成されるため、学習が進むにつれてこれらの値は基本的に無視できるという考え方に基づいています。スパース性により、テンソルコアのスループットは実質的に2倍になります。Nvidia A100のFP16演算性能は312TFLOPSですが、スパース性を考慮すると624TFLOPSになります。
GA100テンソルコアは、生のスループットを大幅に向上させるだけでなく、さらに低精度のINT8、INT4、そしてバイナリテンソル演算もサポートします。INT8では624TOPS、スパース性を考慮した場合1248TOPS、INT4ではその倍の1248/2496TOPSを実現できます。バイナリモードではスパース性をサポートしていないため、用途が限られる可能性がありますが、A100ではこのモードで4992TOPSの演算が可能です。
一方、A100のTensorコアはFP64命令もサポートしています。FP64のパフォーマンスは19.5TFLOPSで、FP16よりはるかに低くなります。しかし、FP64ワークロードでは、GV100の最大FP64スループットの2.5倍の速度です。
最後に、A100 では 2 つの新しい浮動小数点形式が追加されています。BF16 (Bfloat16) は、他のディープラーニング アクセラレータ (Google の TPUv4 など) で既に使用されています。FP16 と同様に 16 ビットを使用しますが、8 ビットの指数と 7 ビットの仮数を使用するようにシフトし、FP32 の 8 ビット指数範囲に一致させながら精度を下げています。これは、通常の FP16 形式よりも優れたトレーニングとモデルの精度を提供することがわかっています。2 つ目の形式は、Nvidia の Tensor Float 32 (TF32) で、8 ビットの指数を維持しながら仮数を 10 ビットに拡張し、FP16 の精度を FP32 の範囲に一致させています。TF32 のパフォーマンスも FP16 と同じであるため、ディープラーニング シミュレーションの追加精度は基本的に「無料」で得られます。
Tensorコアの大幅な強化は、GA100におけるNVIDIAの注力分野を物語っていると言えるでしょう。ディープラーニングとスーパーコンピューティングのワークロードのパフォーマンスが大幅に向上しました。GA100には他にもアーキテクチャ上のアップデートがいくつかあり、ここで簡単に説明します。SMトランジスタ数は50~60%増加しており、それらのトランジスタをどこかに配置する必要がありました。
マルチインスタンスGPU(MIG)は新機能の一つです。これにより、1台のA100を最大7台の仮想GPUに分割できます。これらの仮想GPUはそれぞれ(テンソル演算による推論ワークロードを実行)1台のGV100に匹敵するパフォーマンスを発揮できるため、クラウドサービスプロバイダーのスケールアウトの可能性が大幅に広がります。
A100のSMあたりのL1キャッシュは、V100の128KBに対して192KBと50%増加しています。L2キャッシュはさらに増加し、V100の6MBからA100では40MBとなっています。また、新しいパーティション化されたクロスバー構造により、GV100のL2キャッシュの2.3倍の読み取り帯域幅を実現しています。HBM2メモリの総容量は、GV100の16GBまたは32GBからGA100の40GBに「わずか」増加しただけですが、L1キャッシュとL2キャッシュの増加により、メモリパフォーマンスの最適化が向上しています。
NVLinkのパフォーマンスもほぼ倍増し、GV100の信号ペアあたり25.78 GbpsからGA100の50 Gbpsへと向上しました。A100の単一のNVLinkは、片方向25 GBpsの速度を提供します。これはGV100と同等ですが、リンクあたりの信号ペア数は半分です。リンクの総数も12に倍増し、NVLinkの総帯域幅はA100で600 GBps、V100で300 GBpsとなっています。PCIe Gen4のサポートも追加され、x16接続の帯域幅がほぼ倍増し、15.76 GBpsから31.5 GBpsへと向上しました。
最後に、A100は、非同期コピー、非同期バリア、タスクグラフアクセラレーションという新しい機能を追加しました。非同期コピーはメモリ帯域幅の効率を向上させ、レジスタファイルの帯域幅を削減します。また、SMが他の作業を実行している間にバックグラウンドで実行できます。ハードウェアアクセラレーションによるバリアは、CUDA開発者にさらなる柔軟性とパフォーマンスを提供し、タスクグラフアクセラレーションはGPUへの作業送信の最適化に役立ちます。
その他のアーキテクチャ強化としては、画像ベースのアルゴリズムを用いたディープラーニング学習におけるJPGデコードを高速化するNVJPGデコードなどが挙げられます。A100には5コアのハードウェアJPEGデコードエンジンが搭載されており、CPUベースのJPEGデコードよりも優れたパフォーマンスを発揮し、PCIeの輻輳を軽減します。同様に、A100には5つのNVDEC(Nvidia Decode)ユニットが追加され、一般的なビデオストリーム形式のデコードを高速化します。これにより、ビデオを扱うディープラーニングおよび推論アプリケーションのエンドツーエンドのスループットが向上します。
GA100 と Nvidia A100 アーキテクチャについてはこれで終わりです。次は、コンシューマー向け GeForce RTX カードの Ampere アーキテクチャの変更について説明します。
Nvidia GA102/GA104 Ampereアーキテクチャ
GA100はGV100と比べて多くの変更が加えられており、コンシューマー向け製品のアップデートも同様に重要です。テンソルコアへの上記の変更の多くは、FP64を除くコンシューマー向けモデルにも引き継がれています。GA102/GA104のテンソルコアは、Bfloat16またはTfloat32演算に加え、スパース性(ゼロ化された要素が実質的に無視される)も引き続きサポートしています。ただし、テンソルコアは8x4x4であるため、Ampereのテンソルコア1個あたりのパフォーマンスはTuringのテンソルコアの2倍に過ぎません(スパース性を考慮するとさらに2倍になります)。
GA102は、Micronの新しいGDDR6Xメモリのサポートも追加しました。当然のことながら、コンシューマー向けカードはHBM2ではなくGDDR6/GDDR6Xを採用しています。GDDR6XはPAM4シグナリングを実装しており、使用時には4倍のデータレートを実現します。(低速時、つまりアイドル時など、電力を節約するためにNRZシグナリングを使用することもできます。)
GA10x GPUでは、NvidiaはメモリサブシステムにEDR(エラー検出・再生)テクノロジーも追加しました。これは、メモリサブシステムが送信エラーを検出すると、送信が成功するまで再試行することを意味します。これは特にオーバークロックに有効ですが、より高いオーバークロックを実現してもパフォーマンスが必ずしも向上しない可能性があります。ある時点でEDRが作動し、メモリエラーによるGPUのクラッシュを防ぎますが、パフォーマンスは低下します。この点については、レビューでさらに詳しく取り上げます。
アップグレードされたTensorコアとメモリに加え、レイトレーシングとCUDAコアにも大きな変更が加えられています。まずはレイトレーシングから見ていきましょう。
Nvidiaは2018年にTuringアーキテクチャとGeForce RTX 20シリーズGPUでレイトレーシングについて大々的に宣伝しました。それから2年経ちますが...正直に言うと、ゲームにおけるレイトレーシングはまだその潜在能力を十分に発揮できていません。『Battlefield V』では反射が改善され、『Shadow of the Tomb Raider』と『Call of Duty』では影が改善され、『Metro Exodus』ではRTグローバルイルミネーションが使用されましたが、どのケースでもビジュアル面での比較的小さな改善のためにパフォーマンスが急降下しました。今のところ、レイトレーシングの可能性を示す最良の例は、反射、影、拡散照明にRT効果を使用するゲーム『Control』でしょう。見た目はかなり良いのですが、予想通り、パフォーマンスへの影響は依然として大きいです。
どれくらい大きいのでしょうか?RTX 2080 TiとCore i9-9900Kの場合、Controlを1440p、レイトレーシングなしの最高品質で実行すると、80fpsのパフォーマンスが得られました(これはこの記事のために実施したテストの結果です)。レイトレーシングの追加機能をすべてオンにすると、パフォーマンスは43fpsに低下しました。これは47%の速度低下、つまり実質的に半分のパフォーマンスです。これは大きなペナルティですが、DLSS 2.0を有効にすることで、この影響はほぼ軽減できます。DLSS 2.0は、高品質モードで1707x960でレンダリングし、1440pにアップスケールします。これにより、パフォーマンスは72fpsに戻ります。
ハードウェアをさらに強化した「フルパストレーシング」のデモも行われました。Quake IIやMinecraftといった比較的古く、低解像度のゲームに、ライティング、影、反射、屈折など、フルレイトレーシング効果を追加します。また、1秒あたり数百フレームではなく、60フレーム/秒を実現できるかもしれません。これは、少なくとも最高画質でDLSSを有効にしたRTX 2070 Superで1080pでプレイした場合のことです。
レイトレーシング効果によるパフォーマンスの低下が大きすぎると考え、NVIDIAは方針転換すべきだと考えているなら、それはNVIDIAのことをあまりよく知らないということだ。GeForce 256は(NVIDIAによると)最初のGPUであり、ハードウェアによる変換とライティングの計算をコンシューマー向けハードウェアに導入した。ほとんどのゲームがこれらの機能を適切に利用するようになるまでには、何年もかかった。シェーダーを搭載した最初のGPUも、ハードウェアが一般的になる何年も前に登場したが、今日ではほぼすべてのゲームがシェーダー技術を多用している。NVIDIAはレイトレーシングを同様のステップと捉えている。
朗報としては、Ampereアーキテクチャによるレイトレーシング性能が大幅に向上していることが挙げられます。NVIDIAによると、RTX 3080は58TFLOPSのレイトレーシング演算が可能で、RTX 2080 Tiの34TFLOPSを大きく上回ります。言い換えれば、レイトレーシング性能は1.7倍高速化しているということです。
NVIDIAはRT TFLOPSの計算方法については詳細に説明していませんが、新しい第2世代RTコアは第1世代コアの2倍の速度であると述べています。RTパフォーマンスの向上の一部は、ハードウェアに計算ユニットを追加したことによるものです。NVIDIAは特に、改良されたMIMD実行ユニットと、各レイに異なる時間を割り当てることを可能にする三角形補間ルーチンについて説明しました。これはモーションブラーなどの問題解決に役立ちます。
Ampereは、RT + グラフィックスワークロード(RT + コンピュート)の同時実行もサポートし、レイトレーシングの全体的なパフォーマンスを大幅に向上させます。これはTuringからの重要な改善であり、Ampere GPUでグラフィックス、RT、テンソル(DLSS)演算を同時に実行できるようになりました。
画像
1
の
2

これはレイトレーシングゲームにとって何を意味するのでしょうか? すぐに明らかになるでしょうが、NVIDIAからの情報に基づくと、より多くのゲーム開発者がレイトレーシング効果の量を増やすことになるでしょう。 『サイバーパンク2077』では、レイトレーシングによる反射、影、アンビエントオクルージョンなどが採用されます。また、 『フォートナイト』のRTXパッチでは、レイトレーシングによる反射、影、アンビエントオクルージョン、グローバルイルミネーションなど、複数のエフェクトが有効になります。同様に、『ウォッチドッグス レギオン』と『コール オブ デューティ ブラックオプス コールドウォー』でも複数のRTエフェクトが採用される予定です。
レイトレーシングハードウェアの改良により、『Control』(または今後発売予定の他のゲーム)のようなゲームは、すべてのレイトレーシング効果を有効にした状態でもパフォーマンスの大幅な低下なく動作する可能性があります。DLSSを有効にすると、従来のレンダリングと比較してパフォーマンスが向上することさえあります。この点、そしてレイトレーシングのパフォーマンスをAMDのBig Naviと比較した点についても、今後検討していく予定です。
Nvidiaは、フルパストレーシングを採用したMarbles技術デモから上記の指標も提供しました。名前が明かされていないTuring GPU(RTX 2080 Ti?)は、被写界深度なし、ドームライト1つと間接ライト1つという条件で、 Marblesを720p、25fpsで実行できました。一方、Ampere GPU(RTX 3090?)は、被写界深度有効、エリアライト130個という条件で、1440p、30fpsでデモを実行できます。実際に使用されているGPUが何であれ、全く新しいレベルのレイトレーシングが実現可能になる可能性を秘めています。
もちろん、レイトレーシングだけではありません。NvidiaはDLSSにも力を入れており、さらに強力なTensorコアのおかげで、画質とパフォーマンスはこれまで以上に向上するはずです。DLSS 2.0のクオリティモードは、TAAやSMAAを使用したネイティブレンダリングよりも優れているという段階に既に近づいています(特にTAAはブラーが大きすぎる傾向があるためです)。多くのゲーマーが、健全なパフォーマンス向上のためにDLSSを有効にすることを選択するのは想像に難くありません。
AmpereはHDMI 2.1のおかげで8Kディスプレイをネイティブサポートしているため、DLSSの重要性はさらに高まります。一体どんなハードウェアが、まともなパフォーマンスレベルに近い8Kを実現できるのでしょうか?答えは簡単です。DLSSをオンにし、RTX 3090またはRTX 3080を使って4Kレンダリングするだけです。ただし、さらに進化できる可能性があります。
NVIDIAは、DLSS 2.1という包括的なアップデート群を発表しました。具体的には、これらの機能強化には、最大9倍のスケーリングが可能な8Kゲーミング向けの「ウルトラパフォーマンスモード」が含まれます。つまり、8K DLSSでは1440pでのレンダリングとアップスケールが可能になります。従来のDLSSパフォーマンスモードでは、4倍のアップスケール(例:1080pから4K、または4Kから8K)のみでした。VRモードでもDLSSがサポートされ、DLSSには動的スケーリングオプションが追加され、固定解像度からのアップスケールが不要になりました。
DLSS 2.1アップスケーリングは本当に8Kレンダリングと言えるのでしょうか?いいえ、そうではありません。でも、本当に重要なのでしょうか?8Kディスプレイは当然ながら依然として非常に高価で、ソファに座っているだけでは4Kと8Kの違いを実際に認識できる可能性はほとんどありません。ましてや、私のように視力が衰えている人にとっては、違いが全く分かりません。しかし、ホームシアター分野のマーケティング力は強力であるため、今後8Kテレビへの取り組みがさらに強化されることは間違いありません。家電メーカーは、8Kテレビを利用して4K HDRテレビの所有者にアップグレードを促そうとしているのです。
画像
1
の
4

もう一つの新機能として簡単に触れられたのは、ゲームアセットやその他のデータの読み込みを最適化するRTX IOです。これは、ソニーがPlayStation 5で言及しているものや、MicrosoftがXbox Series Xで採用しているVelocityテクノロジーと、ある意味では似ているようです。
NVIDIAのスライドでは、データ圧縮の使用について具体的に言及されており、CPU使用率を20分の1に抑えながら、スループットを100倍向上できる可能性があると述べています。また、Microsoft DirectStorageを活用、あるいは少なくともサポートしているようです。実際には、GPUメモリへのアセットのロードはCPUをバイパスしますが、いくつかの懸念事項と注意点があります。
RTX IOはPCIe Gen4 SSDの使用を明記していますが、これは現在のPCの大部分には適用できません。PCIe Gen3でも動作するのでしょうか?SATAはどうでしょうか?どちらも可能と思われますが、パフォーマンスのトレードオフがどうなるかは不明です。少なくともIntel CPUを搭載した現在のPCはPCIe Gen4をサポートしておらず、Intelがこの機能を追加するのは来年Rocket LakeとAlder Lakeが登場するまでです。X570またはB550ボードを搭載したAMD Zen 2ユーザーはPCIe Gen4を使用できる可能性がありますが、これらのCPUはRTX 30シリーズのグラフィックカードではパフォーマンスを制限する可能性があるようです。
注目すべき点として、RTX IOはゲーム開発者が実装する必要がある技術であるため、当分の間は広く普及しない可能性があります。また、実環境でのパフォーマンスにどの程度影響するかも不明です。確かにアセットの読み込み速度は向上するかもしれませんが、それがゲームのボトルネックとなる頻度はどの程度でしょうか?最後に、RTX IOがNvidia GPUを必要とする場合(おそらくそうなるでしょう)、AMDユーザーは除外されるため、ゲーム開発者はRTX IOを採用するよりも、別の汎用ソリューション(DirectStorage)を検討する可能性が高いでしょう。
最後に、GA102/GA104のAmpereアーキテクチャにおける残りの変更点について簡単に概説して締めくくりましょう。NvidiaはROP(ラスターオペレーション)をメモリコントローラーからGPCクラスターに移行し、GPCあたり16 ROPを実現しました。つまり、GA102の7つのGPCクラスターはRTX 3090に112 ROP(112 ROP)を提供し、2080 Tiよりも17%向上しています。RTX 3080では、NvidiaはGPCを完全に無効化し、96 ROP(96 ROP)を実現しているようです。GA104の構成についてはまだ詳細は不明ですが、Nvidiaは少なくとも64 ROP(112 ROP)を目指していると推測されます。
ROPの変更に伴い、NVIDIAはL2キャッシュをメモリコントローラあたり512KBに増強しました。GA102のフルモデルではコントローラが12個搭載されています。これにより、3090では合計6144KB、3080では5120KBのL2キャッシュが利用可能になります。
L2キャッシュよりも重要なのは、Nvidiaが各SMに設定可能なL1キャッシュを追加したことです。正確には128KBです。つまり、3090では10496KB、3080では8704KBのL1キャッシュが搭載されていることになります。これは、Turingと比較してSMあたりのL1 / 共有メモリが最大33%増加し、グラフィックワークロードのデータキャッシュと共有メモリが2倍になったことを意味します。これにより、多くの操作のレイテンシが改善されるはずです。L1キャッシュは以下のように設定できます。
- 128 KB L1 + 0 KB 共有メモリ
- 120 KB L1 + 8 KB 共有メモリ
- 112 KB L1 + 16 KB 共有メモリ
- 96 KB L1 + 32 KB 共有メモリ
- 64 KB L1 + 64 KB 共有メモリ
- 28 KB L1 + 100 KB 共有メモリ
Ampere GA102/GA104 GPU も完全に PCIe Gen4 対応ですが、もちろんそのためには Zen 2 以降の CPU を搭載した AMD X570 ボードを使用するか、Intel の将来の Rocket Lake / Alder Lake CPU を待つ必要があります。
NVIDIAのビデオデコーダーエンジン(NVDEC)もアップグレードされ、AV1デコードをネイティブでサポートするようになりました。AV1はH.264、HEVC、VP9よりも優れた画質と圧縮率を実現し、多くのビデオプラットフォームで採用されています。しかし、CPU使用率が高くなる可能性があり、そこでNVIDIAのAV1デコードが役立ちます。AmpereのNVDECは、最大8K60のAVIデコードをハードウェアで実行できます。一方、NVENC(NVIDIAエンコーダー)はTuringから変更されていません。
Nvidia Ampere アーキテクチャ: レイトレーシング第 2 ラウンド
NvidiaのRTX 20シリーズGPUをお持ちの方の中には、今になって騙されたと感じている方もいるでしょう。数ヶ月前にAmpereの発売まで新しいGPUの購入を待つようにというアドバイスをご覧になっていなければ、RTX 30シリーズの仕様とAmpereアーキテクチャを目にすると、さらに辛い思いをするでしょう。実は、この日が来ることは分かっていたのです。TuringがPascalに取って代わり、PascalがMaxwellに取って代わり、MaxwellがKeplerに取って代わったように、GPUの世界では着実に進歩が続いています。
おそらくもっと興味深いのは、Nvidiaが次にどこへ向かうのかという点でしょう。Ampereは新しい製品ですが、コンシューマー向けモデルはすでにやや時代遅れ感があります。AMDはCPUとGPUにTSMC N7を1年以上使用しており、AppleもN7チップを2年間使用しています。TSMCのN7ウェハー供給はほぼ満杯であるため、Nvidiaはコスト削減と供給確保のためにSamsung 8Nを選択したと考えられます。しかし、Nvidiaが来年、TSMC N7またはN7Pを採用したAmpereの後継製品をリリースしても驚かないでしょう。
現在のAmpereアーキテクチャに戻ると、まだまだ魅力的な点がたくさんあります。ここ数年、ゲームにおけるレイトレーシングに懐疑的だった人にとって、Ampereはついに導入を決断させるきっかけとなるかもしれません。AMDのBig Naviが何をもたらすのか、数ヶ月ほど様子を見て、Ampereの供給問題が解決するのを待つのが賢明でしょう。現実には、特に今秋発売予定の次世代PlayStation 5とXbox Series Xコンソールによって、レイトレーシングを何らかの形でサポートするゲームがはるかに増えるでしょう。そして、ゲームを支える十分なハードウェアパワーが備われば、より多くのレイトレーシング効果を実現できるようになるでしょう。
確かなことが一つあります。レイトレーシングは今後なくなることはないでしょう。事実上あらゆる映画で主要な要素となっており、ゲームはまだ2020年のハリウッド映画に匹敵するほどの水準には達していませんが、2000年代のハリウッド映画に匹敵する可能性はあります。現在、リアルタイムゲームは、現実世界の光の挙動をより正確に近似するために、ピクセルあたり数本のレイ(あるいはパス)を使用することが主流です。対照的に、ハリウッドではピクセルあたり数千本のレイ(あるいはパス)が使用されている可能性があります。レイトレーシングハードウェアを搭載したGPUはまだ初期段階ですが、Nvidia(そしてAMDとIntel)がGPUのアップグレードを継続できれば、ゲームと映画の差は縮まるばかりでしょう。
ジャレッド・ウォルトンは、Tom's Hardwareのシニアエディターで、GPU全般を専門としています。2004年からテクノロジージャーナリストとして活躍し、AnandTech、Maximum PC、PC Gamerなどで執筆活動を行っています。初代S3 Virgeの「3Dデセラレータ」から最新のGPUまで、ジャレッドは最新のグラフィックストレンドを常に把握しており、ゲームパフォーマンスに関する質問は彼にお任せください。