82
Nvidia Blackwellアーキテクチャの詳細:RTX 50シリーズGPUのアップグレードを詳しく見る
Nvidia Blackwell アーキテクチャの詳細スライド
(画像提供:Nvidia)

画像

1

19

Nvidia Blackwell アーキテクチャの詳細スライド
(画像提供:Nvidia)

Blackwellアーキテクチャセッションのスライド資料全文はこちらです。予想していたほど長くはありません。NVIDIAは新しいアーキテクチャの一部について詳細な説明をあまりしていませんでしたが、大まかに見ると、RTX 40シリーズのAda Lovelaceアーキテクチャからそれほど変わっていないように見える部分も多数あります。アップグレードと機能強化の大部分はAIと様々なニューラルレンダリング技術に関するもので、これらについては別の記事でより詳しく解説しています。

4枚目のスライドには、Blackwellの目標が示されています。新しいニューラルワークロードへの最適化、メモリフットプリントの削減、新しいサービス品質機能、そしてエネルギー効率の向上です。これらはどれも良いことのように聞こえますが、RTX 5090のGPUダイが4090の608mm²に対して744mm²と大幅に大型化されている点を除けば、多くのアップグレードは漸進的なものに感じられます。

だからといって、何も変わっていないわけではありません。第4世代RTコアは、レイトライアングルインターセクトレートがAdaの2倍です。また、メガジオメトリにも対応しており、将来のUnreal Engine 5ゲームの動作向上に貢献する可能性があります。GPUシェーダーもニューラルシェーダー向けに強化され、その他にもいくつかの新機能が追加されています。

Blackwellは、DisplayPort 1.4a規格を継承し、DisplayPort 2.1 UHBR20 (80Gbps) をフルサポートする初のNVIDIA GPUシリーズとなります。また、PCIe 5.0にも対応しており、コンシューマー向けGPUとしては初となるPCIe 5.0への移行もサポートします。ただし、これが全てのBlackwell GPUに適用されるのか、それともRTX 5090のみに適用されるのかは、まだ確認が必要です。ビデオエ​​ンコードとデコードも強化され、4:2:2ビデオストリームがサポートされるようになりました。

Nvidia Blackwell アーキテクチャの詳細スライド

(画像提供:Nvidia)

数字の話に戻りますが、「最大4,000 AI TOPS」(1秒あたり兆回の演算)という数値は、5090では3,400 TOPS(正確には3352)にまでスケールダウンします。そして、このパフォーマンス向上の大部分はネイティブFP4サポートによるものであることがわかります。つまり、同等の性能を比較すると、RTX 5090はFP8で1,676 TFLOPSであるのに対し、RTX 4090は1,321 TFLOPSです。これはわずか27%の増加であり、依然として大きな増加ではありますが、劇的な増加ではありません。

FP32シェーダーコンピューティングなど、他の部分にも同様のスケーリングが適用されます。5090はFP32で最大104.8 TFLOPSを実現し、RTX 4090は82.6 TFLOPSです。繰り返しますが、これは27%の向上です。これを別の視点で見てみましょう。RTX 4090は、RTX 3090と比較してGPU TFLOPSが132%という驚異的な向上を実現しました。これはまさに興奮するべきアップグレードでした!

5090は間違いなく4090よりも高速で優れているでしょうが、前世代を完全に凌駕するほどの性能を持つわけではありません。少なくとも、マルチフレームジェネレーション(Nvidiaのマーケティング部門ほど私たちが熱心ではない機能)を考慮に入れない限りは。ちなみに、5090のダイは、同じTSMC 4Nプロセスノードで、22%大きく、トランジスタ数は21%増加しています。

Nvidia Blackwell アーキテクチャの詳細スライド

(画像提供:Nvidia)

アーキテクチャ面では、他にも注目すべき変更点がいくつかあります。AIの利用増加と、そうしたワークロードにおける整数演算の利用増加を受け、NvidiaはBlackwellのすべてのシェーダコアをFP32/INT32に完全互換にしました。Ampere(RTX 30シリーズ)では、FP32 CUDAコアの数が倍増しましたが、その半分はFP32のみ、残りの半分はFP32とINT32の両方に対応していました。INT32はメモリポインタの計算によく使用されます。Adaではこの点はそのままで、BlackwellではすべてのCUDAコアが再び統一され、Turingの2倍の数になりました。

NVIDIAはシェーダーレンダリングパイプラインにもいくつか変更を加え、シェーダーとテンソルコア演算のよりスムーズな混合を可能にしました。NVIDIAはこれをニューラルシェーダーとして分類しており、他のRTX世代でもこれらのワークロードを実行できるようですが、Blackwell GPUに比べて相対的に速度は低下します。これはSER(シェーダー実行順序変更)の改善によるところが大きく、BlackwellではAdaの2倍の速度となっています。

Nvidia Blackwell アーキテクチャの詳細スライド

(画像提供:Nvidia)

Blackwellではメモリもアップグレードされ、Ada世代のGDDR6およびGDDR6Xから完全なGDDR7に移行しました。これがすべてのRTX 50シリーズGPUに適用されるかどうかは不明ですが、ノートPC向けRTX 5070 GPUでさえ8GBのGDDR7を搭載していることを考えると、これは普遍的なものだと推測できます。これは、2018年にRTX 20シリーズで初めてGDDR6(クロック速度わずか14Gbps)が導入されて以来、グラフィックスメモリの完全な移行としては初めてのことです。

Blackwell RTX 50シリーズGPUのほとんどは、GDDR7を28Gbpsで動作させます。これはオリジナルのGDDR6チップの2倍の速度ですが、よりハイスペックなRTX 40シリーズGPUの多くで使用されている21Gbps GDDR6Xチップと比べるとわずか33%の速度です。RTX 5080は30Gbps GDDR7に速度向上し、2080 Superの15.5Gbpsメモリのほぼ2倍の速度となります。

メモリインターフェースの幅は、RTX 5090を除いて変更ありません。RTX 5090は発売時に32GBのGDDR7メモリを搭載した512ビットの巨大なインターフェースを搭載します。将来登場する3GB GDDR6チップは、製品サイクルの後半で48GBにアップデートされる可能性や、クラムシェルモードで最大96GBのメモリを搭載したプロフェッショナル/データセンター向けGPUへの搭載の可能性を残していますが、Nvidiaはこれらの情報について公式にコメントや発表を控えています。

RTX 5080は256ビットインターフェースと16GBのメモリを搭載しているため、RTX 4080 Superと比較して帯域幅が30%向上している一方で、容量は変わりません。5070 Ti(5070 Ti Superと比較)と5070(4070と比較)も同様ですが、帯域幅は33%向上しており、21Gbpsに対して28Gbpsとなっています。

Nvidia Blackwell アーキテクチャの詳細スライド

(画像提供:Nvidia)

Blackwellアーキテクチャのもう一つの新機能は、AI管理プロセッサです。(ちなみに、NvidiaはOFA(Optical Flow Accelerator)については一切言及していません。OFAはAda世代では新機能でしたが、現在は廃止され、より強力なテンソル演算に置き換えられている可能性があります。)

AIワークロードの複雑性が高まり、より多くのAIモデルが同時に実行される可能性が高まる中(アップスケーリング、ニューラルテクスチャ、フレーム生成、AI NPCなどを扱うゲームを想像してみてください)、NVIDIAはリソースのスケジューリングを改善したいと考えました。AI管理プロセッサはこれを実現することを目的としており、どのようなワークロードが実行されていて、どれを先に完了させる必要があるかのヒントが得られるようです。そのため、テキスト生成を行うLLMは、MFG(マルチフレーム生成)を先に完了させるために、若干の遅延が許容される可能性があります。

Blackwell では、パワー ゲーティングとエネルギー管理も改善されており、以前の世代よりもより深いスリープ モードに移行したり終了したりできるようになりました。

Blackwellアーキテクチャの詳細な説明はこれで終わりです。もちろん、ニューラルレンダリングやAIなど、他のセッションでも多くの内容が詳しく取り上げられています。詳細については、冒頭のスライド資料をご覧ください。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ジャレッド・ウォルトンは、Tom's Hardwareのシニアエディターで、GPU全般を専門としています。2004年からテクノロジージャーナリストとして活躍し、AnandTech、Maximum PC、PC Gamerなどで執筆活動を行っています。初代S3 Virgeの「3Dデセラレータ」から最新のGPUまで、ジャレッドは最新のグラフィックストレンドを常に把握しており、ゲームパフォーマンスに関する質問は彼にお任せください。