Tom's Hardwareを信頼できる理由 お客様に最適な製品とサービスをお選びいただけるよう、専門のレビュアーが何時間もかけて製品とサービスをテスト・比較しています。テスト方法について詳しくはこちらをご覧ください。
ベガアーキテクチャとHBM2
Vega は AMD の新しい GPU 世代を表しており、以前の GCN の実装と比べて 200 を超える変更と改善が報告されています。
HBM2: スケーラブルなメモリアーキテクチャ
AMDとNVIDIAは共に、ホストプロセッサのオーバーヘッドを削減し、GPUへのスループットを最大化し、既存のボトルネック(特に膨大なデータセットを扱う際に発生するボトルネック)を回避する方法に取り組んでいます。Radeon Pro SSGの目的は、比較的コスト効率の高い方法でGPUの近くにより多くの容量を配置することだったようです。そしてVegaは、より柔軟なメモリ階層によって、このミッションをさらに一歩進めているようです。
VegaがHBM 2を採用していることは周知の事実です。AMDはこのメモリ技術を6ヶ月以上前に正式に発表しました。当時、AMDがこのオンパッケージメモリプール(以前はフレームバッファと呼ばれていました)を「高帯域幅キャッシュ」と呼んでいることも分かりました。お分かりですか?HBM2は高帯域幅キャッシュと同じ意味です。なぜでしょう?AMDがそう呼んでいるからです。
ええ、本当にそうでしょうか?なぜでしょうか?コーポレートフェロー兼製品CTOのジョー・マクリ氏によると、HBMのビジョンはGPUに最も近い最高性能のメモリとなることでした。しかし、彼はシステムメモリとストレージもグラフィックスプロセッサで利用できるようにしたいと考えていました。このより広範なメモリ階層構造を考えると、HBM2を低速なテクノロジーに比べて帯域幅が広いキャッシュとして捉えるのは理にかなっています。しかし、曖昧さを避けるために、ここではHBM2をそのままHBM2と呼ぶことにします。
結局のところ、HBM2自体が大きな前進を表しています。第一世代HBMと比較して、垂直スタックあたりの容量が最大8倍に増加したことで、Radeon R9 Fury Xの寿命について愛好家が抱いていた疑問が解消されました。さらに、ピンあたりの帯域幅が2倍になったことで、潜在的なスループットが大幅に向上しました。
Vegaのメモリサブシステムに関して、ゲーマーに最も大きな影響を与えると予想される変更点はこれです。しかし、AMDは高帯域幅キャッシュコントローラー(もはや単なるメモリコントローラーではありません)に、大規模データセット向けに512TBという巨大な仮想アドレス空間へのアクセスも提供します。
Vegaアーキテクチャのより広範なメモリ階層をどのように活用するかについて尋ねられたAMDは、Vegaが複数のプログラマブルな手法を用いてメモリページをきめ細かく移動できると示唆した。Vegaはデータ取り込み要求を受け取り、DMA転送を介してデータを取得する。その間、GPUは別のスレッドに切り替え、ストールすることなく処理を継続する。コントローラは要求に応じてデータを取得するだけでなく、予測的にデータを取り込むこともできる。HBM内の情報は、インクルーシブキャッシュのようにシステムメモリに複製することも、HBCCが1つのコピーだけを保持してメモリ容量を節約することもできる。これらはすべてハードウェアで管理されるため、高速かつ低オーバーヘッドであることが期待される。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
新しいプログラマブルジオメトリパイプライン
Hawaii GPU (Radeon R9 290X) は、Tahiti (Radeon HD 7970) と比べていくつかの注目すべき改良点が盛り込まれており、その一つが、ジオメトリエンジンを2基から4基に増強した、より強力なフロントエンドです。より新しいFiji GPU (Radeon R9 Fury X) も、同じく4ウェイシェーダーエンジン構成を維持しています。しかし、AMDの第3世代GCNアーキテクチャの優れた機能も搭載しているため、テッセレーションのスループットも向上しています。さらに最近では、Ellesmere GPU (Radeon RX 480/580) が、フィルタリングアルゴリズム/プリミティブ破棄アクセラレータなど、4エンジン構成の性能をさらに引き出すためのいくつかの技術を実装しました。
AMDは昨年、Vegaのピークジオメトリスループットがクロックあたり11ポリゴンと、前世代の4ポリゴンから向上し、最大2.75倍の性能向上をもたらすと発表しました。この仕様は、ジオメトリパイプラインに新しいプリミティブシェーダステージを追加することで実現されています。このプリミティブシェーダは、固定機能ハードウェアではなく、シェーダアレイを用いて処理を行います。
AMDは、このシェーダーを、軽量でプログラム可能であり、プリミティブを高速に破棄できるという点で、ジオメトリ処理におけるコンピュートシェーダーと同様のアクセスを持つと説明しています。プリミティブシェーダーの機能には、DirectXの頂点シェーダー、ハルシェーダー、ドメインシェーダー、ジオメトリシェーダーの各ステージで実行できる機能の多くが含まれますが、処理対象となるコンテキストや処理の完了順序に関してはより柔軟です。
フロントエンドは、プログラマブルハードウェア間の負荷分散を担う、改良されたワークグループディストリビュータの恩恵も受けています。AMDによると、これは効率性を重視するコンソール開発者との協力によるもので、その取り組みは今後PCゲーマーにも恩恵をもたらすとのことです。
Vegaの次世代コンピューティングユニット(NCU)
Nvidiaは、多数のPascalベースGPUを活用することで、セグメンテーションを非常に精密に行っています。最大かつ最も高価なGP100プロセッサは、FP32のピークレートが10.6TFLOPS(ピークGPUブースト周波数使用時)です。FP64コアを1:2の比率で搭載することで倍精度レートは5.3TFLOPSとなり、半精度演算/ストレージのサポートにより最大21.2TFLOPSの性能を実現します。よりコンシューマー向けのGP102およびGP104プロセッサは、当然のことながらFP32のフルパフォーマンスを提供しますが、FP64とFP16のレートは意図的にハンディキャップされているため、科学研究やトレーニングのデータセットには安価なカードを使用することができません。
一方、AMDは、誰に対してもより多くのものを提供しようとしているようだ。64個のIEEE 754-2008準拠シェーダーを備えたCompute Unit構成要素は存続しているが、新しいデータ型のサポートを反映して、NCU(Next-Generation Compute Unit)と呼ばれるようになった。もちろん、64個のシェーダーと1サイクルあたり最大2回の浮動小数点演算で、クロックあたり最大128回の32ビット演算が可能になる。パックFP16演算を使用すると、この数値はクロックあたり256回の16ビット演算となる。AMDは、クロックあたり最大512回の8ビット演算が可能だとさえ主張している。倍精度となると話は別で、AMDはターゲット市場に基づいてFP64のレートを設定していることを認めることに抵抗がないようだ。
この柔軟性の原動力は、コンソール業界から生まれた可能性が高いでしょう。ソニーのPlayStation 4 Proは、半精度演算で最大8.4 TFLOPS(32ビット演算の2倍の性能)を実現できることは周知の事実です。あるいは、AMDが機械学習分野に意欲を燃やし、近日発売予定のRadeon Instinct MI25のような製品でNVIDIAの市場シェアを奪おうとしていることが、この柔軟性の原動力となったのかもしれません。いずれにせよ、コンソール、データセンター、そしてPCゲーマーは皆、恩恵を受けるでしょう。
AMD は、NCU がより高いクロック レートに最適化されていると主張しましたが、これは特に驚くべきことではありません。ただし、計算ユニットをビジー状態に保つために、より大きな命令バッファーも実装しました。
次世代ピクセルエンジン:奇跡を待つ
次に、AMD のいわゆる Draw Stream Binning Rasterizer について見てみましょう。これは従来の ROP を補完するもので、パフォーマンスの向上と消費電力の削減を同時に実現するはずです。
しかし、この機能には大きな疑問符が一つあります。複数の出版物に携わる同僚がベンチマークを実行しましたが、いずれも目立ったパフォーマンスの向上は記録されていません。その理由は、最近確認したところ、DSBRが現在無効になっており、将来のドライバアップデートで利用可能になる予定であるためです。
大まかに言うと、オンチップのビン キャッシュにより、ラスタライザは重複するプリミティブのデータを 1 回だけフェッチし、最終シーンでは表示されないピクセルをカリングすることでピクセルを 1 回だけシェーディングできるようになります。
AMD は、レンダリング バックエンドを L2 のクライアントにすることで、キャッシュ階層を根本的に変更しました。
Vega以前のアーキテクチャでは、AMDのピクセルおよびテクスチャメモリアクセスは非コヒーレントであり、各パイプラインステージで同期するための共有ポイントがありませんでした。テクスチャベイク処理の例では、シーンを後で再利用するためにテクスチャにレンダリングし、その後シェーダアレイを介して再度アクセスするため、データはオフダイメモリを経由して引き戻される必要がありました。Vega以前のアーキテクチャではコヒーレントアクセスが実現されており、AMDによると、特に遅延シェーディングを使用するアプリケーションのパフォーマンスが大幅に向上するとのことです。
詳細: 最高のグラフィックカード
詳細: デスクトップ GPU パフォーマンス階層表
詳細: すべてのグラフィックコンテンツ
Igor Walllossek氏は、Tom's Hardware誌で、技術分析と詳細なレビューに重点を置いた幅広いハードウェア記事を執筆しています。GPU、CPU、ワークステーション、PCの組み立てなど、PCコンポーネントの幅広い分野を網羅しています。彼の洞察力に富んだ記事は、絶えず変化するテクノロジー業界において、読者が情報に基づいた意思決定を行うための詳細な知識を提供しています。