10
Radeon HD 6970 および 6950 のレビュー: ケイマンはアリゲーターか、それとも廃人か?

サイプレスの改良によるケイマンの建設

AMD によれば、Cayman の構築にあたっては、効率性の向上、ジオメトリ パフォーマンスの改善、新しい画質機能、電力管理の改善という 4 つの主要な設計目標があったとのことです。

まず、より効率的なグラフィックスおよびコンピューティングアーキテクチャを構築したいと考えました。この決定の背後にある動機は十分に理にかなっています。AMDはゲームにおけるVLIWレートが約3.4であることを予測していました。そのため、特殊機能超越ユニットを削除し、その機能を他の4つのユニットに分散させることは、実際には面積あたりのパフォーマンスの最適化に成功し、GPUを観測された動作レート内で動作させることを約束しました。VLIW使用率が4を超えるなど、パフォーマンスが低下する状況もありますが、AMDはそのような可能性は低いと述べています。

さらに重要なのは、AMDがより効率的なアーキテクチャを構築する必要があったことです。TSMCの40nm製造ノードに固執していたAMDは、単に絶対的な性能向上に注力するのではなく、ダイ面積1ミリメートルあたりの性能を向上させる方法を見つけ出す必要がありました。AMDは、5ウェイVLIWアーキテクチャから4ウェイ設計に移行することで、同じ面積により多くのSIMDを追加できるため、ダイ面積1ミリメートルあたりの性能が10%向上したと主張しています。

Cypress/BartsはVLIW5アーキテクチャを採用している

Cypress/BartsはVLIW5アーキテクチャを採用している

ケイマンはより効率的なエリアVLIW4構成を採用しています

ケイマンはより効率的なエリアVLIW4構成を採用しています

アーキテクチャを簡素化しても、その性能は低下しません。4つのストリームプロセッサは同一の機能を持ち、特殊機能ユニットの役割も担います。VLIW4構成では、各ストリームプロセッサは以下の処理を実行できます。

  • クロックあたり 4 つの 32 ビット FP FMA、MAD、MUL、または ADD
  • クロックあたり2つの64ビットFP ADD
  • クロックあたり1つの64ビットFP FMAまたはMUL
  • クロックごとに1つのFP特殊関数
  • 1クロックあたり4つの24ビットInt MAD、MUL、またはADD
  • 1クロックあたり4つの32ビット整数ADDまたはビット単位の演算
  • 1クロックあたり1つの32ビットInt MADまたはMUL
  • クロックごとに1つの64ビットADD

GPUのシェーディングコアを超えて、レンダリングバックエンドは16ビット整数演算を2倍、32ビットFP演算を2~4倍高速化します。AMDによると、これはアンチエイリアシング性能に最も直接的な影響を与えます。

コンピューティングパフォーマンスの強化

AMDのコンピューティング重視の志向は、Nvidiaほど真剣に受け止められないことが多いですが、Caymanではこの点が重視されているようです。例えば、Radeon HD 5800シリーズのカードは倍精度演算を単精度の5分の1の速度で実行しますが、Caymanは単精度の4分の1の速度で動作します。Radeon HD 6970のピーク単精度演算速度はRadeon HD 5870(2.7TFLOPS)よりもわずかに低いものの、Radeon HD 6970のピーク倍精度演算速度は675GFLOPSで、5870の544GFLOPSを大きく上回ります。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

また、Barts GPU は DP を完全に犠牲にし、コンピューティング能力ではなくゲーム パフォーマンスに重点を置いていることにも注意してください。

Cayman には、デュアル双方向 DMA エンジンも組み込まれており、PCI Express バスを介してシステム メモリへの読み取りと書き込みが理想的に高速化されます。

最後に、AMDはCaymanにGPUをまたいで独立したアプリケーションを処理できる機能を与えています。これは、同じCPUスレッドから生成された複数のカーネルを処理できるFermiとは対照的です。興味深いことに、この機能はDirectX 11には含まれていないため、AMDは将来的にOpenCLを通じてこの機能を有効化する必要があります。

これらの機能的な調整を除けば、CaymanはCypressのキャッシュ構造を維持しています。各SIMDには、16KBのL1テクスチャキャッシュとは別に、計算処理用の8KBのL1キャッシュと、32KBのローカルデータ共有が搭載されています。4つの128KBのL2キャッシュは引き続きこれらのSIMDに情報を提供し、すべてのSIMDで共有される64KBのグローバルリポジトリも引き続き存在します。

クリス・アンジェリーニは、Tom's Hardware USの名誉編集者です。ハードウェアレビューの編集を担当し、注目度の高いCPUやGPUの発表を取り上げています。