NVIDIAは今週初めにAda Lovelaceグラフィックス・プロセッシング・ユニット(GPU)ファミリーを発表した際、主に最上位のAD102 GPUとフラッグシップのGeForce RTX 4090グラフィックスカードに焦点を絞っていました。AD103とAD104グラフィックスチップについては、あまり詳細を明らかにしていませんでした。しかし、NVIDIAは本日、Ada Lovelaceのホワイトペーパーをアップロードしました。このホワイトペーパーには、新しいGPUに関する膨大なデータが含まれており、多くの疑問を解消しています。RTX 40シリーズGPUに関する最新情報をまとめたハブも既に更新済みですが、ここでは興味深い新情報の概要をご紹介します。
ビッグゲームのためのビッグGPU
スワイプして水平にスクロールします
GPU/グラフィックカード | フルAD102 | RTX 4090 | RTX 4080 16GB | RTX 4080 12GB | RTX 3090 Ti |
---|---|---|---|---|---|
建築 | 西暦102年 | 西暦102年 | 西暦103年 | 西暦104年 | GA102 |
プロセス技術 | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N | サムスン 8LPP |
トランジスタ(10億個) | 76.3 | 76.3 | 45.9 | 35.8 | 28.3 |
ダイサイズ(mm^2) | 608 | 608 | 378.6 | 294.5 | 628.4 |
ストリーミングマルチプロセッサ | 144 | 128 | 76 | 60 | 84 |
GPU コア (シェーダー) | 18432 | 16384 | 9728 | 7680 | 10752 |
テンソルコア | 576 | 512 | 320 | 240 | 336 |
レイトレーシングコア | 144 | 144 | 80 | 60 | 84 |
TMUs | 512 | 512 | 304ですか? | 240 | 336 |
ROP | 192 | 192 | 112 | 80 | 112 |
L2キャッシュ(MB) | 96 | 96 | 64 | 48 | 6 |
ブーストクロック(MHz) | ? | 2520 | 2505 | 2600 | 1860 |
TFLOPS FP32(ブースト) | ? | 82.6 | 48.7 | 40.1 | 40.0 |
TFLOPS FP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320(該当なし) |
TFLOPSレイトレーシング | ? | 191 | 113 | 82 | 78.1 |
メモリインターフェース(ビット) | 384 | 384 | 256 | 192 | 384 |
メモリ速度(GT/s) | ? | 21 | 22.4 | 21 | 21 |
帯域幅(GBps) | ? | 1008 | 736 | 504 | 1008 |
TDP(ワット) | ? | 450 | 320 | 285 | 450 |
発売日 | ? | 2022年10月12日 | 2022年11月? | 2022年11月? | 2022年3月 |
発売価格 | ? | 1,599ドル | 1,199ドル | 899ドル | 1,999ドル |
Nvidiaのホワイトペーパーで興味深い点の一つは、Ada Lovelace GPUがクリティカルパスに高速トランジスタを採用することで最大クロック速度を向上させている点です。その結果、18,432個のCUDAコアを搭載したフル機能のAD102 GPUは、「TGPは450Wを維持しながら、2.5GHzを超えるクロックで動作可能」となっています。この点を踏まえると、同社が自社のラボでGeForce RTX 4090(16,384個のCUDAコア搭載)のクロック速度が3.0GHzに達したと述べているのも当然と言えるでしょう。3.0GHzというクロック速度を実現したGeForce RTX 4090は、間違いなく最高のグラフィックカードリストのトップに躍り出るでしょう。
NVIDIAのAda Lovelace GPUは、高いクロック周波数に加え、大規模なL2キャッシュを搭載しており、レイトレーシング、パストレーシング、シミュレーションなどの計算負荷の高いワークロードのパフォーマンスを向上させ、メモリ帯域幅の要件を削減します。基本的に、NVIDIAのAda GPUはRDNA 2 Infinity Cacheの考え方を取り入れていますが、この新しいアーキテクチャの一般的な目標は、AMDのRadeon RX 6000シリーズ製品が2020年に発売されるずっと前から設定されていたと考えられます。
シミュレーションなどのワークロードについて言えば、スーパーコンピュータの世界では、結果の精度を向上させるために、倍精度浮動小数点形式(FP64)で数値計算が行われることに注意する必要があります。FP64は、パフォーマンスとハードウェアの複雑さの両方において、FP32よりもコストがかかります。そのため、コンピュータグラフィックスではFP32形式が使用され、重要でないアセットの多くのシミュレーションもFP32精度で実行されます。一方、AD102 GPUには、FP64コードを含むすべてのプログラム(FP64 Tensor Coreコードを含む)が正しく動作することを保証するため、わずか288個のFP64コア(ストリーミングマルチプロセッサあたり2個)が搭載されています。
それでも、AD102のFP64レートは、FP32演算のTFLOPレートの64分の1です(これはAmpereアーキテクチャと一致しています)。Nvidiaは、ストリーミングマルチプロセッサ(SM)モジュールの図にFP64コアを記載しておらず、AD103およびAD104 GPUに搭載されているコアの数も公表していません。AdaグラフィックスプロセッサのFP64レートが低いことから、これらのデバイスは主にゲーム用途に特化していることが分かります。
トランジスタの数が増えるとパフォーマンスも向上
NVIDIAのAda Lovelaceグラフィックプロセッサの複雑さとダイサイズは、同社のAmpere GPUと比べて驚くべきものではありません。新しいAda GPUはTSMCの4N(5nmクラス)製造技術を用いて製造されていますが、AmpereはSamsung Foundryの8LPPプロセス(10%の光学シュリンクを実現する10nmクラスのノード)で製造されています。この複雑さ(トランジスタ数)の増加が、レイトレーシングなどの性能向上やDLSS 3.0による画質向上を可能にしています。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
スワイプして水平にスクロールします
GPU/グラフィックカード | 西暦102年 | RTX 4090 | RTX 4080 16GB | RTX 4080 12GB | RTX 3090 Ti |
---|---|---|---|---|---|
グラフィックプロセッサ | 西暦102年 | 西暦102年 | 西暦103年 | 西暦104年 | GA102 |
TFLOPS FP32(ブースト) | ? | 82.6 | 48.7 | 40.1 | 40.0 |
TFLOPS FP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320(該当なし) |
TFLOPSレイトレーシング | ? | 191 | 113 | 82 | 78.1 |
もう一つ注目すべき点は、NvidiaのAD102 GPUは、下位の同世代製品よりもトランジスタ密度が高いことです。トランジスタ密度が3.6%向上したことで、AD102は下位の同世代製品と比べて大幅に多くの実行ユニットを搭載できるようになりました。しかし一方で、AD103とAD104のトランジスタ密度は比較的低く、多くの場合、歩留まりの向上(ノードの欠陥密度が一般的に高くないことを前提とした場合)とクロック周波数の向上が期待できます。
AD103とAD104の周波数ポテンシャルを予測するには、実際のハードウェアにアクセスしたり、実際の歩留まり率を把握したりする必要があります。しかし、AD102が2.50GHz~3.0GHzで動作できるのであれば、AD103とAD104はさらに高いポテンシャルを持つと予想するのは妥当でしょう。また、RTX 4080 12GBは2610MHzで動作するAD104チップをフル稼働させているのに対し、RTX 4080 16GBは2505MHzで動作するAD103チップの95%(80個のSMのうち76個)を使用し、RTX 4090は2510MHzで動作するAD103チップの89%(144個のSMのうち128個)しか使用しておらず、L2キャッシュの25%も無効化されていることも分かっています。
高い複雑性によって実現される膨大な数の実行ユニットと高クロックを組み合わせることで、驚異的なパフォーマンス向上が期待できます。NvidiaのGeForce RTX 4090は、FP32の理論ピーク演算速度(約82.6 TFLOPS)を、GeForce RTX 3090 Ti(約40 TFLOPS)の2倍以上実現しています。
一方、要求の厳しいゲーマー向けのNvidiaのAda GPUの現在のラインナップは、同社がハイエンドゲーミング市場への3チップアプローチに回帰していることを示しています。通常、NvidiaはフラッグシップゲーミングGPUをリリースした後、フラッグシップのリソース(CUDAコアなど)の約66%~75%を搭載したチップをリリースし、その後、フラッグシップのユニットの約50%を搭載したグラフィックプロセッサを発表します。Ampereファミリーでは、NvidiaのGA103チップが主にラップトップ向けに設計され、デスクトップにはほとんど搭載されなかったため(登場も遅かった)、この戦略は多少調整されましたが、Ada世代ではNvidiaは3チップという従来のアプローチに戻りました。
さらに多くのSKUが入荷予定
興味深い点の一つは、AD102 GPUとGeForce RTX 4090グラフィックスカードの最大構成の差です。AD102は18,432個のCUDAコアを搭載していますが、GeForce RTX 4090は16,384個のCUDAコアが有効です。このようなアプローチにより、NVIDIAは歩留まりと将来の新しいグラフィックスカードの導入に関して柔軟性を高めることができ、ProViz市場などに向けてRTX 4090 Ti、RTX 4080 Ti、そしてRTX 5500/5000 Ada世代を投入する余地が十分にあります。
一方、GeForce RTX 4080 16GBとRTX 4080 12GBは、それぞれほぼ完全なAD103 GPUとAD104 GPUを搭載しています。将来どうなるかは分かりませんが、いずれAD103とAD104 GPUの縮小版が登場すると予想しています。AD104チップの縮小版をベースにGeForce RTX 4070 TiやRTX 4070が登場する可能性、そしてAD103グラフィックスプロセッサを搭載したラップトップ向けの超ハイエンドグラフィックスソリューションの可能性について推測することはできますが、これらのパーツの仕様については推測するしかありません。
いくつかの考え
NVIDIAのAda Lovelaceアーキテクチャは、Ampereアーキテクチャと比べて質的にも量的にも飛躍的な進歩を遂げています。NVIDIAは、レイトレーシング、テンソルコア、その他いくつかのユニットの性能をアーキテクチャレベルで大幅に向上させただけでなく、それらの数を増やし、クロックも向上させました。ここでの大きな改良点は、Ampere GPUと比較してAda GPUのL2キャッシュが大幅に増加していることです。
これらの飛躍的な進歩は、TSMCのNVIDIA GPUに最適化された4Nプロセス技術によって大きく実現されました。さらに、NVIDIAは高速トランジスタを採用することで新しいグラフィックプロセッサの周波数を向上させ、さらなるパフォーマンス向上を実現しました。
しかし、Nvidia の新しい GPU の最先端の製造ノードと大きなダイ サイズにより、部品の製造コストも大幅に高くなり、そのため GeForce RTX 4080 および 4090 グラフィック カードの価格は、直接の前身よりもかなり高くなっています。
Nvidia は、これまでにデスクトップ向けの GeForce RTX 4080 12GB、RTX 4080 16GB、RTX 4090 グラフィック カードと、ワークステーション/データセンター向けの RTX 6000 Ada 世代、ハイエンド ワークステーションおよび仮想化ワークステーション環境向けの L40 (Lovelace 40) ボードの 5 つの Ada Lovelace ベースの製品のみを導入しています。
NVIDIAがフルスペックのAD102 GPUと、AD102、AD103、AD104 GPUの縮小版を提供できることを考えると、クライアントマシン向けのGeForce RTX 40シリーズカードや、データセンター向けのAda RTXシリーズソリューションが多数登場することが予想されます。一方、NVIDIAはおそらく小型GPU(AD106、AD107)も準備しているため、Ada Lovelace製品ファミリーは少なくともAmpereラインナップと同程度に幅広い製品ラインナップになると思われます。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。