GF100: Fermiベースのチップ
AMD と Nvidia のそれぞれの設計原理の二分法は 2010 年でも続いています。
前者は「スイートスポット」戦略を堅持しており、適度なサイズのGPU(21億5000万個のトランジスタを搭載したチップを妥当と呼べるかどうかはさておき)でいわゆるハイエンド市場に対応し、派生製品でそれ以下の価格帯をカバーするという戦略をとっています。より要求の厳しい愛好家層に対応するには、マルチGPU構成が不可欠です。この世代の例として、デュアルGPUのRadeon HD 5970が挙げられます。
一方、NVIDIAは新たな巨大企業を擁している。両社はトランジスタの数え方が異なることはほぼ確実だが、GF100は30億個以上を搭載していると言われており、GT200の14億個から大幅に増加している。NVIDIAがFermiアーキテクチャの低価格版をどのように実装する予定なのかはまだ明らかにされていない(現在公開されている詳細はすべて特定のチップに集中している)。しかし、これからご覧いただくように、この設計は意図的にモジュール化されている。つまり、GeForce GTX 200シリーズのマザーボードはすべて1つの(高価な)GPUを搭載していたのに対し、今回は低価格版で何らかの削減が行われる可能性が高いと言えるだろう。
ATIのRadeon HD 5000シリーズカードと同様に、NVIDIAはTSMCの40nm製造プロセスを採用していますが、このプロセスはこれまでのところ、AMDの需要を満たすために必要な歩留まりレベルに達するのに苦労しています。このファブの初期段階の苦労がNVIDIAにも同様の影響を与えるかどうかは興味深いところです。
Nvidiaが消費電力について注意を促していることを考えると、GeForce GTX 295のようなデュアルGPUバージョンは、デュアルカードSLI構成に取って代わられる可能性が高いでしょう。ただし、NvidiaがGF100を2基搭載したカードを必要とするとは考えていません。もし同社が今日のゲームでGeForce GTX 285の約2倍の性能を達成すれば(テクスチャリング/AAの改良を考慮すると、GF100は2倍以上のパフォーマンスを発揮するシナリオが出てくると思われます)、GPU1基でRadeon HD 5970と競合することになるはずです。
ビルディングブロック
では、なぜGF100が前世代機をこれほど圧倒的に凌駕するパフォーマンスを発揮すると予想されるのでしょうか?それは主にアーキテクチャの比較によるものです。幸いなことに、GF100の設計はGT200から派生しており、GT200自体は悪名高いG80/G92から派生したものです。Nvidiaの前世代機の設計に既に馴染みがある方であれば、最新世代機の理解は比較的容易でしょう。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
基本的な構成要素は依然としてストリームプロセッサであり、現在はCUDAコアとして販売されています。GF100は512個のCUDAコアを誇り、GT200は240個です。したがって、クロックあたりの性能は、他の最適化が施されていない場合、GeForce GTX 285の2.13倍になる可能性があります。しかし、NVIDIAはGT100の設計においてGT200の弱点を認識しており、アーキテクチャを少し変更することでそれらの弱点に対処したと主張しています。実際、NVIDIAによると、今日のタイトルでは、8xAAを有効にした状態でGT200の約2倍のパフォーマンスが実現されているとのことです。
GPC
GT200は、NVIDIAがテクスチャ処理クラスタ(TPC)と呼ぶものを10個搭載し、各クラスタは3つのストリーミング・マルチプロセッサ(ストリームプロセッサ8基とテクスチャアドレス/フィルタリングユニット8基で構成)を備えています。この基本構成は今回進化し、固定機能のラスターエンジンから最大4つのストリーミング・マルチプロセッサまで、より洗練されたリソース群を網羅しています。
これらのロジックブロックはグラフィックス処理クラスタ(GPC)に分割され、以前はTPCの外部に存在していた機能を統合することでTPCの概念を覆しました。現在、1つのGPCには最大4つのSMとインターフェースする独自のラスターエンジンが搭載されており、各SMは32個のCUDAコアと4個の専用テクスチャユニット(NVIDIAがデュアルスケジューラ/ディスパッチャと64KBの設定可能なキャッシュ/共有メモリと称するもの)を備えています。GF100は、フル稼働のDeath Star構成で4つのGPCを搭載しています。
数字上では、GT200はGF100よりもテクスチャリングユニットの数が多い(TPCあたり8個、GPUあたり最大10個のTPC)のに対し、SMあたり4個のテクスチャリングユニット、最大16個のSM)。しかし、ここでの焦点は効率性の向上にある。各テクスチャユニットは1クロックあたり1つのアドレスを計算し、4つのサンプルをフェッチする。その結果、NVIDIAによると、GF100は実世界におけるパフォーマンスにおいてより高い性能を実現している。
GigaThreadによるスケジュール設定
GPCは、NVIDIAのGigaThreadエンジンによって処理されます。NVIDIAのマーケティングチームによって子供向けに設計されたこのエンジンは、GF100のスケジューラとして、チップ上の16個のSMそれぞれに作業を割り当てる役割を担っています。しかし、従来の1カーネルずつのアプローチではなく、スレッドブロックを並列に作成・ディスパッチする機能により、Fermiアーキテクチャの重要なコンポーネントとしての地位を確立しています。
もちろん、GigaThreadエンジンはフレームバッファからデータを取得します。一見すると、6つの64ビットコントローラ(合計384ビット)は、GT200の8つの64ビット(合計512ビット)構成よりも狭く見えます。しかし、Nvidiaは今回GDDR5を採用しており、インターフェースが簡素化されているにもかかわらず、帯域幅が大幅に増加しています。AMDがRadeon HD 5870に使用しているのと同じ1,200MHz DRAMをGF100ベースのカードに搭載すると、Radeonの153.6GB/秒に対して、GF100ベースのカードは230.4GB/秒のスループットを実現します。
ROPパフォーマンス
GF100のバックエンドは6つのROPパーティションで構成されており、一度に8つの32ビット整数ピクセルを出力できます。これは、クロックあたり4ピクセル出力可能なGT200の8つのブロックと比べても遜色ありません。Nvidiaはブロックごとに1つの64ビットメモリコントローラを搭載していますが、クロックあたり32ピクセルから48ピクセルへと全体的な出力向上を実現しています。Radeon HD 5870の記事で、ATIのアンチエイリアシング性能が前世代のハードウェアよりも向上していることに気づいた方もいるかもしれません。一方、GT200ベースのGeForce GTX 285は、AAを最大にすると、より大きな影響が出ました。
これは、NvidiaがGF100で改善を図ったもう1つの領域です。ATIのRadeon HD 5870などのカードをお持ちの場合、またはGF100ベースの何かを購入して1つのディスプレイで実行する場合、GPUの圧倒的なパフォーマンスを活用するために、可能な限り詳細な設定を有効にしていることになります。この目的のために、GF100は新しい32倍カバレッジサンプリングアンチエイリアシング(CSAA)モードをサポートしており、NvidiaはAge of Conanでアルファテクスチャビルボードを使用して生成されたフォリッジのバンディング問題を滑らかにすることを実証しました。そして、その最適化の結果、Nvidiaは8倍マルチサンプリングから32倍CSAAへの移行によるパフォーマンスの低下は10%未満であると主張しています。
クリス・アンジェリーニは、Tom's Hardware USの名誉編集者です。ハードウェアレビューの編集を担当し、注目度の高いCPUやGPUの発表を取り上げています。