GP104に会う
Computex(いわゆるローンチシーズン)が近づいてきました。NVIDIAは、ゲーマー向けにPascalアーキテクチャを実装した最初の製品を発表しました。GP104プロセッサは、同社のGeForce GTX 1080と1070に搭載されています。本日は前者をレビューしますが、後者は6月上旬に発売される予定で、2016年末までにPascalベースの派生製品の完全なポートフォリオが続くことは間違いありません。
いつものように、私たちはこれらの約束を探求し、テストするためにここにいます。それでは始めましょう。
GeForce GTX 1080 はハイエンドゲームを変えることができるか?
NVIDIAのGeForce GTX 1080は、今月初めに発表された2枚のゲーミンググラフィックカードのうち、より高速な方です。どちらも同社のGP104プロセッサを搭載しており、ちなみにこれは同社にとってPascalアーキテクチャを採用した2枚目のGPUとなります(1枚目は4月のGTCで発表されたGP100)。NVIDIAのCEO、ジェンスン・フアン氏は、GeForce GTX 1080のSLI性能は980を2枚上回ると発表し、ファンを沸かせました。
彼はまた、GTX 1080によって900シリーズの処理能力が向上し、消費電力を抑えながらより多くの処理を実行できるようになったと述べました。かつてのフラッグシップモデルであるGeForce GTX Titan Xと比較して、パフォーマンスは2倍、効率は3倍に向上しています。ただし、付属のグラフをよく見ると、この数値は特定のVRワークロードに固有のものであることがわかります。しかし、もしこれが事実に近いとすれば、ハイエンドPCゲーミングは非常にエキサイティングな時代を迎えていると言えるでしょう。
VRはまだ始まったばかりですが、高いグラフィック処理能力が参入障壁となっています。さらに、現在利用可能なゲームのほとんどは、マルチGPUレンダリングを活用できるように開発されていません。つまり、一般的には最速のシングルGPUカードしか使えないということです。GTX 1080なら、2枚の980を凌駕する性能で、今日のVRタイトルを問題なくプレイできるはずです。マルチGPUの必要性は、まだ先の話でしょう。
4Kエコシステムも進化しています。HDMI 2.0bやDisplayPort 1.3/1.4といった、より広い帯域幅を備えたディスプレイインターフェースの登場により、今年末までに120Hzパネルとダイナミックリフレッシュレートを備えた4Kモニターが実現すると予想されています。AMDとNvidiaの前世代のハイエンドGPUは4K対応として高い評価を得ていましたが、プレイ可能なパフォーマンスを維持するために品質面での妥協を余儀なくされました。NvidiaのGeForce GTX 1080は、ディテール設定を最大にした状態で3840x2160の解像度で十分なフレームレートを実現する最初のグラフィックカードになる可能性があります。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
マルチモニター構成はどうでしょうか?多くのゲーマーは、7680x1440で毎秒5億ピクセル以上をシェーディングしようとすると、圧倒的な負荷がかかるため、1920x1080の画面を3台並べるだけで満足しています。しかし、QHDモニターを一切使わず、11,520x2160の4Kディスプレイを3台並べて構成したいという熱狂的なゲーマーもいます。
最新のゲーミングフラッグシップ機にしては少々奇抜な設定かもしれませんが、NVIDIAのGP104プロセッサには、このカードが最も必要とするワークロード、つまり4Kとサラウンド再生において、ユーザーエクスペリエンスを向上させる技術が組み込まれています。これらの追加機能について触れる前に、まずはGP104とその基盤となるPascalアーキテクチャについて詳しく見ていきましょう。
GP104 には何が含まれていますか?
AMDとNvidiaは2012年初頭から28nmプロセス技術を採用してきました。当初、両社はこのノードを最大限に活用し、Radeon HD 7970とGeForce GTX 680で大きな飛躍を遂げました。しかし、その後4年間は、より高いパフォーマンスを実現するために、創造性を発揮する必要がありました。Radeon R9 Fury XとGeForce GTX 980 Tiが達成した成果は、その複雑さを考えると驚異的です。Nvidia初の28nmプロセスを採用したGK104は、35億個のトランジスタを搭載したチップでした。GeForce GTX 980 TiとTitan Xの心臓部であるGM200は、80億個のトランジスタで構成されています。
TSMCの16nm FinFET Plusテクノロジーへの移行は、NVIDIAのエンジニアたちが息を詰めて待つ必要がなくなったことを意味します。TSMCによると、16FF+は28HPMと比較して最大65%高速、2倍の密度、または70%の低消費電力を実現しており、NVIDIAがこれらの特性を最適化してGPUを開発していることは間違いありません。TSMCはまた、既存の20nmプロセスのメタルバックエンドプロセスを再利用していると主張していますが、平面トランジスタではなくFinFETを使用しています。同社はこれが歩留まりとプロセスの成熟度の向上に役立つと述べていますが、高性能な20nmプロセスが存在しないという事実は、そのことを物語っています(繰り返しますが、グラフィックスの世界では28nmが始まってから4年以上が経過しています)。
その結果、GM204の精神的後継機は、314mm²の領域に収まる72億個のトランジスタで構成されています。これを、398mm²のダイに収まる52億個のトランジスタであるGM204と比較してください。最高レベルでは、1つのGP104 GPUに4つのグラフィックス処理クラスターが含まれます。各GPCには、5つのスレッド/テクスチャ処理クラスターとラスターエンジンが含まれます。さらに細かく分類すると、TPCは1つのストリーミングマルチプロセッサとPolyMorphエンジンを組み合わせています。SMは、128個の単精度CUDAコア、256KBのレジスタファイル容量、96KBの共有メモリ、48KBのL1 /テクスチャキャッシュ、および8つのテクスチャユニットを組み合わせています。一方、第4世代のPolyMorphエンジンには、ジオメトリパイプラインの最後、ラスターユニットの前に配置され、Nvidiaの同時マルチプロジェクション機能(これについては後ほど詳しく説明します)を処理するための新しいロジックブロックが含まれています。これらすべてを合計します。 20 個の SM、合計 2560 個の CUDA コアと 160 個のテクスチャ ユニットが得られます。
GPUのバックエンドには8つの32ビットメモリコントローラが搭載されており、合計256ビットのパスを形成し、それぞれに8つのROPと256KBのL2キャッシュがバインドされています。繰り返しますが、計算すると64のROPと共有L2は2MBになります。NVIDIAのGM204のブロック図では、4つの64ビットコントローラと16個のROPパーティションが示されていましたが、これらはグループ化されており、機能的には同等です。
ところで、GP104の構造仕様の一部はGM204の一部と似ているように思われます。実際、この新しいGPUは前世代機の構成要素を基盤として構築されています。これは悪いことではありません。Maxwellアーキテクチャは、Keplerの長所をあまり損なうことなく、効率性を重視していたことをご存じでしょう。ここでも同じことが当てはまります。
4つのSMを追加しても、劇的にパフォーマンスが向上するとは思えないかもしれません。しかし、GP104にはいくつかの秘密兵器が隠されています。1つは、大幅に高いクロックレートです。Nvidiaの基本GPU周波数は1607MHzです。比較すると、GM204の仕様は1126MHzでした。GPUブーストレートは1733MHzで、EVGAのPrecisionXユーティリティのベータビルドを使用して、サンプルを2100MHzまで上げました。このヘッドルームを実現するために何が必要だったのでしょうか?GPUエンジニアリング担当シニアバイスプレジデントのJonah Alben氏によると、彼のチームはTSMCの16FF+がプロセッサの設計を変えることを認識していたため、チップ内のタイミングの最適化に重点を置き、より高い周波数を妨げるパスをクリーンアップしました。その結果、GP104の単精度演算性能は、ベースクロックを維持した場合、8228GFLOPS(ベースクロックを維持した場合)に達し、GeForce GTX 980の4612GFLOPSの上限を上回ります。また、テクセルフィルレートは、980の155.6GT/s(GPUブースト周波数使用時)から277.3GT/sに向上します。
スワイプして水平にスクロールします
グラフィックプロセッサ | GeForce GTX 1080 (GP104) | GeForce GTX 980 (GM204) |
---|---|---|
SMS | 20 | 16 |
CUDAコア | 2560 | 2048 |
ベースクロック | 1607MHz | 1126MHz |
GPUブーストクロック | 1733MHz | 1216MHz |
GFLOP(ベースクロック) | 8228 | 4612 |
テクスチャユニット | 160 | 128 |
テクセル充填率 | 277.3 GT/秒 | 144.1 GT/秒 |
メモリデータレート | 10 Gbps | 7 Gb/秒 |
メモリ帯域幅 | 320 GB/秒 | 224 GB/秒 |
ROP | 64 | 64 |
L2キャッシュ | 2MB | 2MB |
TDP | 180W | 165W |
トランジスタ | 72億 | 52億 |
ダイサイズ | 314mm² | 398mm² |
プロセスノード | 16nm | 28nm |
同様に、バックエンドは64 ROPと256ビットのメモリパスを備えていますが、Nvidiaは利用可能な帯域幅を増やすためにGDDR5Xメモリを採用しています。複数のAMDカードがHBMを採用し、Nvidia自身のTesla P100がHBM2を搭載していることを踏まえ、同社はこれを可能な限り肯定的に捉えようと多大な努力を払っています。しかし、HBM2の供給が不足しているようで、NvidiaはHBMの限界(主に1GBスタック4つ、または1GBスタック8つに伴う課題)を受け入れるつもりはありません。そのため、GDDR5Xが供給されていますが、GeForce GTX 1070がGDDR5を使用していることを考えると、これも不足しているはずです。とはいえ、私たちが得られるものの重要性を軽視すべきではありません。 GDDR5は、GeForce GTX 980で7Gb/sのデータレートを実現しました。256ビットバスでは、最大224GB/sのスループットを実現しました。GDDR5Xは10Gb/sからスタートし、帯域幅は320GB/s(約43%の増加)まで引き上げられます。NVIDIAによると、再設計されたI/O回路により、消費電力を増やすことなくこれを実現しています。
Maxwellアーキテクチャが最適化されたキャッシュと圧縮アルゴリズムによって帯域幅をより効率的に利用したのと同様に、Pascalもメモリサブシステムの複数の箇所で節約を実現する新しいロスレス技術を実装しています。GP104のデルタカラー圧縮は2:1の節約を実現しようとしており、このモードはより頻繁に使用できるように強化されていると言われています。また、ピクセル単位の差異が非常に小さく、さらに少ないスペースに圧縮可能なケースに対応する新しい4:1モードも用意されています。最後に、Pascalには新しい8:1モードがあり、これは2x2ブロックへの4:1定数圧縮と、それらの差異に対する2:1圧縮を組み合わせたものです。
画像
1
の
3

もっと簡単に説明すると、上の最初の画像はProject CARSの非圧縮スクリーンキャプチャです。次のショットは、Maxwellで圧縮可能な要素をマゼンタで置き換えたものです。最後に、Pascalがシーンをさらに圧縮していることがわかります。NVIDIAによると、これはフレームごとにメモリからフェッチする必要があるバイト数を約20%削減することになります。
詳細: 最高のグラフィックカード詳細: すべてのグラフィックコンテンツ
クリス・アンジェリーニは、Tom's Hardware USの名誉編集者です。ハードウェアレビューの編集を担当し、注目度の高いCPUやGPUの発表を取り上げています。