GeForce GTX 750 Ti レビュー: Maxwell が省電力でパフォーマンスを向上

22ページ中1ページ目:

MaxwellベースのGM107 GPUのご紹介

最近のゲーマーは、グラフィックカードに力強さを求めています。ダブルスロットクーラーと凝ったファンシュラウドは、ティム・アレン風のうなり声と、うなずきによる賛同を誘うのが一般的です。結局のところ、高フレームレートには複雑なGPUが必要です。『バトルフィールド 4』で稼働する数十億個のトランジスタは熱くなります。そして、その熱はすべてどこかに逃がす必要があります。

したがって、短くてむき出しの PCB を持ってテーブルに着く場合は、比喩的に言えば 1 つか 2 つのトリックを隠し持っている方がよいでしょう。

しかし、NVIDIAは、おそらく主張を証明しようとしていたのでしょう、リファレンスモデルのGeForce GTX 750 Tiを6インチ未満のボードで出荷しました。補助電源コネクタはなく、小さな球状のヒートシンクとファンがボルトで固定されています。GeForce GTX 650 Tiとほぼ同じサイズです。しかし、大型クーラーがないことで、GTX 750 Tiは、私たちがテストした多くのサウンドカードよりもさらに小型です。

それでも、NVIDIAは、Maxwellアーキテクチャをベースとした最初の製品は、最新タイトルにおいて、かなり要求の厳しい設定でも1920x1080解像度でのゲームプレイをターゲットにしていると主張しています。これはグラフィックス界のプリウスとなるのでしょうか？

マクスウェル・イン・ザ・ミドル

Maxwellのストーリーは興味深い。同社の今後の設計アプローチにどのような影響を与えるかという点だけでなく、NVIDIAが通常よりもアーキテクチャの詳細を非公開にしているという点も興味深い。まずはデザインから見ていこう。

昨年12月、私たちはサンタクララでNVIDIAのTegra K1 SoCについて学んでいました。K1のグラフィックスエンジンがKeplerベースであることは既に知っていました。これは基本的に単一のSMXで、電力を最適化するために様々なサブシステムを接続する構造に大きな変更が加えられています。しかし、GPUエンジニアリング担当シニアバイスプレジデントのジョナ・アルベン氏は、Maxwell以降のすべての新しいアーキテクチャはモバイルを念頭に置いて構築されることも明言しました。エンジニアは、パフォーマンス目標と電力バジェットに基づいて、GPUコンポーネント間のファブリックを最適化します。ただし、基本的な構成要素はセグメント間で共通であり、重要な決定は効率性に基づいて行われるとのことです。

Tegra: どこから来たのか

Maxwellの開発の原動力は、Nvidiaのスマートフォンおよびタブレット分野への取り組みにあります。このアーキテクチャについて詳しくは、「Nvidia Tegra K1 詳細：モバイルSoCでXbox並みのパワー？」をご覧ください。

これは、より大きな市場シェア獲得を目指して奮闘を続けるTegraファミリーにとって、明らかに朗報です。K1ベースのデバイスはまだ登場していませんが、私たちは既にNvidiaの「MaxwellはKeplerの2倍のワット当たり性能を誇る」という主張について考え始めています。そして、このような大幅な性能向上がモバイルゲームにどのような影響を与えるのか、今から楽しみです。

ただし、同社の刷新されたアーキテクチャが 1 桁から 2 桁、3 桁の電力上限まで拡張し続ける限り、効率性への新たな重点はデスクトップでも良い結果をもたらすはずです。

幸いなことに、答えが出るまで長く待つ必要はありません。本日発売されるGeForce GTX 750 Tiは、Maxwellの実力（少なくともTDP60Wの場合）を実証してくれるはずです。NVIDIAによると、このより効率的な設計により、CUDAコア数が少ないGPUでも消費電力を大幅に削減し、パフォーマンスをわずかに向上させることができるとのことです。新しいプロセス技術ノードに頼ることができないことを理解していたNVIDIAは、28nm製造を念頭に置いてMaxwellの改良を進めなければなりませんでした。つまり、単にリソースを追加するだけでは不十分だったため、GPUをよりスマートに動作させる必要があったのです。

Maxwellストリーミングマルチプロセッサ

同社の代表者によれば、Maxwell の最大の利点は、現在 SMM と略されているストリーミングマルチプロセッサの再設計によるものだという。

Keplerでは、各SMXは192個のCUDAコア、4個のワープスケジューラ、そして256KBのレジスタファイルをホストしています。さらに、共有メモリとL1キャッシュとして64KB、独立したテクスチャキャッシュ、ユニフォームキャッシュ、そして16個のテクスチャユニットも備えています。CUDAコア数と制御ロジックの大幅な増加は、NvidiaがFermiの2倍のシェーダ周波数の損失を克服するのに役立ちました。しかし、この構成ではSMXを最大限に活用することが困難であることが判明しました。

Maxwellは、SMXを4つのブロックに分割し、各ブロックに独自の命令バッファ、ワープスケジューラ、そして2つのディスパッチユニットを持たせることで、この問題に対処しようとしています。Keplerの256KBレジスタファイルは、64KBのスライス4つに分割されます。また、各ブロックには32個のCUDAコアが搭載され、SMM全体では合計128個となります（Keplerの192個から減少）。以前のアーキテクチャの32個のロード/ストアユニットと32個の特殊関数ユニットはMaxwellにも引き継がれています。ただし、倍精度演算の速度はFP32の1/32にまで削減されています。これは、主流のKeplerベースのGPUでは1/24でした。

スワイプして水平にスクロールします

GM107 SMM（左）とGK106 SMX（右）

SMあたり: GM107 GK106比率CUDAコア1281922/3倍特殊関数ユニット32321倍ロード/ストア32321倍テクスチャユニット8161/2倍ワープスケジューラ441倍ジオメトリエンジン111倍

各ブロックペアは12KBのテクスチャとL1キャッシュに紐付けられており、SMMあたり最大24KBになります。ブロックペアは4つのテクスチャユニットにも紐付けられているため、SMMは8つのテクスチャユニットを搭載しています。これはKeplerのSMXと比較するとテクスチャユニットの数が半分です。また、上の表を見ると、GM107はGK106に若干の差をつけているように見えます。しかし、ボトルネックについてはまだ心配する必要はありません。このアーキテクチャは、より少ないリソースでより多くの処理を実行することを目的としていることを忘れてはなりません。

最後に、SMM用の64KBの共有メモリ空間があります。これはFermi、そしてKeplerから引き継がれましたが、計算タスク用のL1キャッシュとしては使用されなくなりました。以前は、この空間を48KBの共有空間と16KBのL1として、あるいはその逆として構成することができました。しかし、現在はその必要がなくなったため、64KBすべてがGPU計算用の共有アドレス空間として使用されます。

ご想像のとおり、SMMから64個のCUDAコアと8個のテクスチャユニットを削減することで、各ビルディングブロックのダイサイズは大幅に削減されます。一方、Nvidiaは、コアを継続的にビジー状態に保つことで、マルチプロセッサのパフォーマンスの約90%を維持できると主張しています。これがタブレットにとって何を意味するのか疑問に思うのは、あなただけではありません。しかし、デスクトップアプリケーションにおいては、Nvidiaはより多くのSMMを一定のスペースに詰め込むことができるのです。このカードの後継機であるGeForce GTX 650 Tiは4個のSMXブロックを採用していましたが、GeForce GTX 750 Tiは5個のSMMを採用しています。

GM107の構築

NVIDIAが明らかにミッドレンジのグラフィックスカードに新しいアーキテクチャを導入するのは今回が初めてです。Fermiの時は、フルパワーのGF100でした。KeplerベースのGK104でさえ、そのアーキテクチャに対応するには驚くほど高速でした。そのため、GM107が先陣を切ることで、メッセージングはかなり異なります。もちろん、GeForce GTX 750 Tiは、単に王座に就くのではなく、依然としてKeplerが支配するポートフォリオに組み込む必要があるためです。

そして、GM107 の完全対応実装を使用することでこれを実現します。GM107 は、5 つの SMM を単一のグラフィックス処理クラスターに統合し、独自のラスターエンジンを搭載しています。GM107 はクロックサイクルごとに 1 つの可視プリミティブを設定できます。これは、GK106 のプリミティブレートである 1.25 プリム/クロックをわずかに下回り、GK107 の 0.5 プリム/クロックの 2 倍です。

従来のNvidiaアーキテクチャと同様に、ROPパーティションとL2キャッシュスライスはアラインメントされています。GeForce GTX 650 TiのGK106プロセッサと同様に、GM107は8ユニットずつのパーティションを2つ備えており、1クロックあたり最大16個の32ビット整数ピクセルを実現します。2つのGPUの大きな違いはL2キャッシュ容量です。GK106ではスライスあたり128KBでしたが、2つのROPパーティションを持つ実装では最大256KBになります。GM107はスライスあたり1MBのメモリを搭載し、ロード、ストア、テクスチャリクエストの処理に2MBのメモリを使用します。Nvidiaによると、これは外部メモリシステムから大幅な負荷軽減と大幅な省電力化につながるとのことです。

GM107は、1GBまたは2GBの1350MHz GDDR5 DRAMを搭載した64ビットメモリコントローラを2つ搭載しているため、メモリ帯域幅を控えめにするのは賢明です。興味深いことに、ピークスループットはGeForce GTX 650 Tiと全く同じ86.4GB/sでした。メモリはCUDAコアに供給する数が減っていますが、より効率的に管理されています。そのため、大容量のL2メモリはボトルネックの防止に重要な役割を果たすと考えられます。

実際、グローバルなページ内ランダムキャッシュのレイテンシを見ると、Maxwell のメモリ階層によって GPU がより一貫してビジー状態になる様子がわかります。

GM107のゲームやコンピューティングタスクに特化した部分に加え、NVIDIAは固定機能のNVEncブロックも改良したと発表しています。これは、ShadowPlayがパフォーマンスへの影響を最小限に抑えながら、フラグフェストをエンコードできるようにするロジックです。Shieldへのストリーミングを可能にするのもこのブロックです。また、いくつかのトランスコードアプリを高速化し、大容量の映画をポータブルデバイスに素早く転送できるようにします。KeplerはH.264ベースのコンテンツをリアルタイムの約4倍の速度でエンコードできましたが、Maxwellは6～8倍のリアルタイムを実現できると言われています。H.264のデコード性能も、以前より8～10倍向上していると言われています。NVIDIAによると、これらの性能向上は、固定機能ブロックの高速化によって実現されているとのことです。

スワイプして水平にスクロールします

ヘッダーセル - 列 0	GeForce GTX 650	GeForce GTX 650 Ti	GeForce GTX 750 Ti	GeForce GTX 660
グラフィックプロセッサ	GK107	GK106	GM107	GK106
建築	ケプラー	ケプラー	マクスウェル	ケプラー
SMS	2	4	5	5
GPC	1	2	1	3
シェーダーコア	384	768	640	960
テクスチャユニット	32	64	40	80
ROPユニット	16	16	16	24
プロセスノード	28 nm	28 nm	28 nm	28 nm
コア/ブーストクロック	1058MHz	925MHz	1020 /1085 MHz	980 / 1033 MHz
メモリクロック	1250MHz	1350MHz	1350MHz	1502 MHz
メモリバス	128ビット	128ビット	128ビット	192ビット
メモリ帯域幅	80 GB/秒	86.4 GB/秒	86.4 GB/秒	144.2 GB/秒
グラフィックス RAM (GDDR5)	1GBまたは2GB	1GBまたは2GB	1GBまたは2GB	2GB
電源コネクタ	1 x 6ピン	1 x 6ピン	なし	1 x 6ピン
最大TDP	64ワット	110ワット	60ワット	140ワット
価格	130ドル（2GB）	150ドル（2GB）	150ドル（2GB）	190ドル（2GB）

GM107 GPUは、148mm²のダイに18億7000万個のトランジスタを搭載しています。GeForce GTX 650 Tiと比較すると、この最初のMaxwellベースプロセッサは、221mm²のダイに25億4000万個のトランジスタを搭載したGK106の後継機となります。パフォーマンス結果を見る前に、NVIDIAが効率性を重視していることを前提とする必要があります。そのため、より小さなダイに少ないトランジスタを搭載し、CUDAコアやテクスチャユニットを大幅に削減しても、全体的なパフォーマンスを向上させることができるのです。少なくとも、それが私たちの目標です…

あるいは、熱容量の上限を重視するなら、GM107と13億個のトランジスタを搭載し、面積が118mm²のGK107を比較することもできます。その場合、Maxwellベースのプロセッサはより複雑で、サイズも大きく、大幅に高速でありながら、消費電力は依然として少ないはずです。

現在のページ: MaxwellベースのGM107 GPUの紹介

次のページ Nvidia の GeForce GTX 750 Ti リファレンスカード

クリス・アンジェリーニは、Tom's Hardware USの名誉編集者です。ハードウェアレビューの編集を担当し、注目度の高いCPUやGPUの発表を取り上げています。

Ecosystem