ハワイ:ゲーミング用62億トランジスタGPU
現在、最速のシングルGPUグラフィックカードは、NvidiaのGeForce GTX Titan(GeForce GTX Titan 6 GBのベンチマーク:高速、静音、安定性)です。価格は1,000ドル以上で、6GBの高速GDDR5メモリを搭載しています。2560x1440のゲームには最適で、5760x1080でも一部のゲームではプレイ可能なパフォーマンスを発揮しますが、3840x2160では速度が足りません。実際、「3840x2160でのゲーム:PCは4Kディスプレイに対応していますか?」という記事で、Ultra HD画面で満足のいくフレームレートを実現するには、GeForce GTX 780を2枚ほど必要だと結論付けました。
先週、Nvidia がモントリオールでイベントを開催し、近々発売される GeForce GTX 780 Ti を含むいくつかのテクノロジと構想を発表する一方で、AMD は、3840x2160 のBioShock InfiniteとTomb Raiderで 290X が GeForce GTX 780 よりも高速であることを示すベンチマーク結果をいくつか公開しました。
NVIDIAの650ドルのソリューションを軽々と追い抜いたように見えるこの新しいボードの心臓部は何でしょう?それはHawaii GPUです。Tahitiよりもはるかに複雑なシリコンチップでありながら、同じGraphics Core Nextアーキテクチャをベースとしています。少し古くて少し新しい、そんな感じでしょうか。
AMD は「ビッグ GPU」アプローチに戻るのか?
2007年に遡ると、AMDはGPU戦略を転換し、大型モノリシックプロセッサからよりスケーラブルな設計へと転換しました。AMDは、比較的主流の価格帯と消費電力をターゲットに、より低価格な部品を開発するか、2つのGPUを並べて超ハイエンド構成にする、という戦略を採用しました。
時が経つにつれ、AMDのエンジニアたちはより複雑なチップへと傾倒し、約100WのRV670は150WのRV770へと道を譲り、その後、約200WのCypress GPUを搭載したRadeon HD 5870、250WのCayman、そして同様に消費電力の大きいTahitiへと進化しました。しかし、AMDは着実に進化を続け、フラッグシッププロセッサ2つを1枚のPCBに搭載することに成功し、あの驚異的な高速化を実現しました。言うまでもなく、最新の例はAMDのRadeon HD 7990で、消費電力は375Wと驚異的です。
AMDはHawaiiで、スイートスポット戦略を放棄したようだ。62億トランジスタのGPUはTahitiより44%複雑だが、同じ28nmプロセスで製造されている。ダイサイズは438mm²で、NVIDIAのGK110よりはまだかなり小さい。しかし、同社がこれまでに発表したどのグラフィックプロセッサよりも大きい(R600の420mm²、Tahitiはわずか352mm²)。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
スワイプして水平にスクロールします
ヘッダーセル - 列 0 | レーデオンR9 290X | レーデオンR9 280X | GeForce GTX Titan | GeForce GTX 780 |
---|---|---|---|---|
プロセス | 28 nm | 28 nm | 28 nm | 28 nm |
トランジスタ | 62億 | 43億 | 71億 | 71億 |
GPUクロック | 1GHz | 1GHz | 836MHz | 863MHz |
シェーダー | 2816 | 2048 | 2688 | 2304 |
FP32パフォーマンス | 5.6テラフロップス | 4.1 TFLOPS | 4.5 TFLOPS | 4.0 TFLOPS |
テクスチャユニット | 176 | 128 | 224 | 192 |
テクスチャフィルレート | 176 GT/秒 | 128 GT/秒 | 188 GT/秒 | 166 GT/秒 |
ROP | 64 | 32 | 48 | 48 |
ピクセルフィルレート | 64 GP/秒 | 32 GP/秒 | 40 GP/秒 | 41 GP/秒 |
メモリバス | 512ビット | 384ビット | 384ビット | 384ビット |
メモリ | 4 GB GDDR5 | 3 GB GDDR5 | 6 GB GDDR5 | 3 GB GDDR5 |
メモリデータレート | 5 Gb/秒 | 6 Gb/秒 | 6 Gb/秒 | 6 Gb/秒 |
メモリ帯域幅 | 320 GB/秒 | 288 GB/秒 | 288 GB/秒 | 288 GB/秒 |
ボード電源 | 250 W(公称) | 250ワット | 250ワット | 250ワット |
繰り返しになりますが、Hawaiiの基盤となるGCNアーキテクチャはこれまでと同様です。コンピューティングユニットの構成要素は全く同じで、64個のIEEE 754-2008準拠シェーダーが4つのベクターユニットと16個のテクスチャフェッチロード/ストアユニットに分割されています。
ただし、設計にはいくつかの調整が加えられています。例えば、標準的な呼び出し規約をサポートするためのデバイスフラットアドレス指定、ネイティブLOGおよびEXP演算の精度向上、動き推定アルゴリズムを高速化するMQSAD(Masked Quad Sum of Absolute Difference)関数の最適化などです。ちなみに、これらの機能はすべて、3月にレビューしたBonaire GPU(AMD Radeon HD 7790レビュー:150ドルで登場する次世代グラフィックスコア)と同時にデビューしました。AMDはまだそれらについて説明していなかっただけです。また、DirectX 11.2の導入により、BonaireとHawaiiの両方に、プログラム可能なLODクランプと、シェーダーにサーフェスが常駐しているかどうかを通知する機能が追加されました。これらはどちらも、タイル化されたリソースに関連するTier 2機能です。
しかし、AMDのCUの配置は異なります。Tahitiは最大32個のCompute Unit、合計2048個のシェーダーと128個のテクスチャユニットを誇っていましたが、Hawaiiは44個のCUを搭載し、AMDがShader Engineと呼んでいる4つのエンジンに分かれています。計算すると、合計2816個のシェーダーと176個のテクスチャユニットになります。最大1GHzで動作し(これは後で重要な違いになります)、浮動小数点演算性能は5.63TFLOPSです。また、AMDがR9 290Xの倍精度レートを1/4から1/8に変更し、最大0.7TFLOPSになったこともわかりました。この構成のFireProバージョンは、フルスピード(1/2レート)のDPコンピューティングをサポートするため、プロフェッショナルユーザーはHawaiiのプロフェッショナル向け実装を購入するメリットがあります。
Hawaiiは、CUへのリアルタイムおよびバックグラウンドタスクのスケジュールを担当する、改良された8つの非同期コンピューティングエンジンも採用しています。各ACEは最大8つのキュー(合計64個)を管理し、L2キャッシュと共有メモリにアクセスできます。対照的に、Tahitiには2つのACEがありました。今年初めに記事を書いたKabiniとTemash APUには、4つのACEが搭載されています。Hawaiiはなぜそれほど劇的に異なるのでしょうか。Hawaiiの非同期コンピューティングアプローチはPlayStation 4の設計に大きく影響されていることを示唆する証拠がいくつかありますが、AMD自身はこれを認めていません。どうやら、ソニーのエンジニアは次世代ゲームで多くのコンピューティングエフェクトを期待しており、コンピューティングとグラフィックスの調停に多くのリソースを割り当てることで、これまでは不可能だった効率化が可能になります。
Tahitiのフロントエンドは、2つのジオメトリプロセッサを介して頂点データをシェーダーに供給していました。Hawaiiでは、クアッドシェーダーエンジンレイアウトにより、その数が倍増し、クロックサイクルあたり2つではなく4つのプリミティブを処理できるようになりました。また、フロントエンドとバックエンドの間には、レイテンシを隠蔽し、プリミティブのピークスループットを最大限に高めるためのステージ間ストレージが増設されています。
専用のジオメトリエンジン(および11個のCU)に加え、シェーダーエンジンは独自のラスタライザと、1クロックあたり16ピクセルのレンダリングが可能な4つのレンダリングバックエンドを備えています。これはGPU全体で1クロックあたり64ピクセルとなり、Tahitiの2倍の性能です。Hawaiiは1サイクルあたり最大256回の深度およびステンシル演算を可能にし、これもTahitiの128回の2倍です。高解像度向けに設計されたグラフィックスカードでは、高いピクセルフィルレートが有利であり、AMDによると、多くの場合、チップのパフォーマンスボトルネックがフィルレートからメモリ帯域幅へと移行します。
共有L2読み取り/書き込みキャッシュは、Tahitiの768KBから1MBに拡張され、16個の64KBパーティションに分割されます。この33%の増加により、L1とL2構造間の帯域幅も33%増加し、最大1TB/秒に達します。
そうすると、ジオメトリのスループットを増加し、768 個のシェーダーを追加し、バックエンドのピーク時のピクセル充填を 2 倍にすると、Hawaii のメモリサブシステムに追加の要求がかかるのは当然です。AMD は、再設計されたコントローラーでこの問題に対処しています。新しい GPU は 512 ビットの集約インターフェイスを備えており、同社によると、Tahiti の 384 ビット設計よりも約 20% 少ない面積を占有し、mm² あたりの帯域幅が 50% 増加します。これはどのように可能でしょうか。実際には、非常に高速なデータレートをサポートするにはダイスペースが必要です。そのため、高電圧で 6 Gb/s に達すると、低電圧で低周波数をターゲットとし、結果的に小型化できる Hawaii のバスに比べて、Tahiti の効率は悪くなります。R9 290X の場合 5 Gb/s で動作する場合、512 ビットバスは 4 GB の GDDR5 を使用して最大 320 GB/s まで押し上げます。比較すると、Tahiti は最大 288 GB/s でした。
現在のページ: ハワイ: 62億個のトランジスタを搭載したゲーム用GPU
次のページ CrossFire: ブリッジコネクタの廃止、DMAの導入
クリス・アンジェリーニは、Tom's Hardware USの名誉編集者です。ハードウェアレビューの編集を担当し、注目度の高いCPUやGPUの発表を取り上げています。