GK110:真の戦車
Nvidiaの前世代グラフィックカード、Fermiベースの500シリーズを思い出してください。同社のマーケティングチームは、それぞれのGPUに、戦車、ハンター、スナイパーといった異なる戦場クラスを想定し、それぞれ異なる役割に合わせて構成を最適化しました。GeForce GTX 580のGF110は、まさに重戦車そのものでした。大型でパワフル、そして高価でありながら、Fermiアーキテクチャの潜在能力を最大限に引き出した製品でした。
一方、NVIDIAが500ドルで手に入れたにもかかわらず、GeForce GTX 680のGPUはGF110の後継機ではないことは最初から分かっていました。GK104はゲーム向けに最適化されており、演算性能を大幅に犠牲にしており、OpenCLベースのテストでは580を下回りました。当時、NVIDIAはGK104の妥協点の重要性を軽視し、35億トランジスタのチップがAMDの43億トランジスタのTahiti GPUに対してゲームでどれほど優れたパフォーマンスを発揮したかを強調することに注力していました。
しかしその後、同社は真の戦車である GK110 を搭載した Tesla K20 ファミリーを発表しました (Nvidia はもはやその類似点を使用していませんが)。
SMXの内部
GK110 GPUは15個のストリーミングマルチプロセッサ(SMX)で構成されています。これらのプロセッサは現在、SMXと呼ばれています。これらのSMXブロックは、GeForce GTX 680の駆動力となっているGK104とほぼ同じです。192個のCUDAコア、16個のテクスチャユニット、そして非常によく似たキャッシュ構造を備えています。しかし、明らかにその数ははるかに多くなっています。GK104には8個のSMXブロックが含まれています。GK110には15個のSMXブロックがあります。しかし、チップが非常に大きく複雑なため、欠陥は歩留まりに深刻な影響を与えます。完璧に製造されたGPUも確かに存在します。しかし、GK110ベースの最高級製品でさえ、1つのSMXが無効になっています。192個のシェーダーを14倍にすると、2,688個のCUDAコアを搭載したGPUになります。さらに、14 個の SMX ごとに 16 個のテクスチャ ユニットがあるため、合計 224 個の TMU となり、GeForce GTX 680 の 128 個から増加しています。
スワイプして水平にスクロールします
SMX あたり: | GF100(フェルミ) | GF104(フェルミ) | GK110(ケプラー) | GK104(ケプラー) |
---|---|---|---|---|
CUDAコンピューティング能力 | 2.0 | 2.0 | 3.5 | 3.0 |
糸/経糸 | 32 | 32 | 32 | 32 |
最大ワープ/SMX | 48 | 48 | 64 | 64 |
最大スレッド数/SMX | 1,536 | 1,536 | 2,048 | 2,048 |
最大スレッドブロック数/SMX | 8 | 8 | 16 | 16 |
32ビットレジスタ/SMX | 32,768 | 32,768 | 65,536 | 65,536 |
最大レジスタ数/スレッド | 63 | 63 | 255 | 63 |
最大スレッド数/スレッドブロック | 1,024 | 1,024 | 1,024 | 1,024 |
GK110 は、単にゲームを加速する追加リソースを積み重ねるだけでなく、「ハンター」の最も明白な欠点 (特に、GeForce GTX 680 を GeForce GTX 580 の後継として考えている場合)、つまりコンピューティング能力に対処しています。GK104では、各 SMX に 192 個の FP32 対応コアが搭載されており、ピーク時の浮動小数点パフォーマンスは 3 TFLOPS 以上になります。ただし、FP64 ユニットは 8 個しかないため、倍精度パフォーマンスは FP32 レートの 1/24 に制限されます。GK110 SMX には 64 個の FP64 CUDA コアが組み込まれているため、その比率は 1/3 にまで絞られます。 Nvidia によると、GeForce GTX Titan は最大 4.5 TFLOPS の単精度演算能力と 1.5 TFLOPS のピーク時の倍精度演算能力を提供します。理論上、これは単精度性能 4.3 TFLOPS、倍精度性能 1.01 TFLOPS と評価されている AMD の Radeon HD 7970 GHz Edition カードよりわずかに優れていることになります。
画像
1
の
2

GK110がコンピューティングに重点を戻したことを嬉しく思います。しかし、GeForce GTX Titanのリアルタイムグラフィックス性能が最優先事項であることは疑いの余地がありません。シェーダーとテクスチャユニット数が75%増加したこととのバランスを取るため、NVIDIAはGPUのバックエンドも強化しました。GK104の4つのROPパーティションは、1クロックあたり8つの32ビット整数ピクセルを出力でき、NVIDIAはこれを32 ROPユニットと呼ぶ。GK110ではこれらのブロックのうち6つを活用し、その数は48に増加しています。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
GeForce GTX 680とTitanはどちらも1,502MHzで動作するGDDR5メモリを搭載しています。しかし、GK110は64ビットメモリインターフェースを6つ搭載しているのに対し、GK104は4つしか搭載していないため、ピーク帯域幅は192GB/秒から288GB/秒へと50%向上しています。これは、同じく384ビットバスで1,500MHz GDDR5を搭載するAMDのリファレンスカードRadeon HD 7970 GHz Editionと同等です。
クリス・アンジェリーニは、Tom's Hardware USの名誉編集者です。ハードウェアレビューの編集を担当し、注目度の高いCPUやGPUの発表を取り上げています。