85
AMD Instinct MI200: デュアルGPUチップレットと96 TFLOPS FP64

AMDは本日、Accelerated Data Center基調講演において、コンピューティングに特化したGPU「Instinct MI200」を正式に発表しました。これは、前モデルのInstinct MI100から大幅にアップグレードされたものです。MI200は、近日発売予定のFrontierスーパーコンピューターに搭載され、数千基のEPYC CPUとMI200 GPUによってエクサスケールの性能を発揮します。AMDはNvidiaのA100と幾度となく比較を行い、コンピューターの性能と密度が大幅に向上したと主張しています。しかしながら、こうした発表はあくまでも参考程度に留めておくべきです。紙面スペックだけでは全体像は掴めませんが、MI200はまさにモンスター級の性能を持つ製品です。

基本的に、MI200はMI100に搭載されていたGPUのアップデートおよび強化版を搭載しているようです。AMDはこのアーキテクチャをCDNA2と呼んでおり、これはコンシューマー市場におけるRDNA2からRDNAへの移行に似ています。MI100は120基のCDNA CU(コンピューティングユニット)と7680基のストリーミングプロセッサを搭載していました。MI100はTSMCのN7製造ノードを使用し、最大32GBの1.2GbpsクロックのHBM2メモリもサポートしていました。MI200はそれを継承し、主要なパフォーマンス指標をすべて向上させています。

AMD Radeon MI200 発表スライド

(画像提供:AMD)

AMD Radeon MI200 発表スライド

(画像提供:AMD)

AMDが発表した仕様によると、MI200のクロック周波数は最大1.7GHzで、MI100の1.5GHzを上回ります。メモリも3.2Gbpsで動作するHBM2eにアップグレードされ、デュアルチップレットGPUレイアウトと相まって、MI200の総帯域幅は1.2TBpsから3.2TBpsに増加しました。しかし、これはまだ始まりに過ぎません。

MI200のコア機能ユニットの多くはMI100と類似しているように見えますが(ベクトルFP64およびFP32のレート、および行列FP16およびFP32のレートは変更されていないように見えます)、AMDはベクトルユニットと行列ユニットの両方を強化しました。具体的には、行列演算とベクトル演算の両方でFP64がサポートされ、ベクトルFP64では演算速度が2倍に向上しました。

数値的に言えば、MI100は10TFLOPSを超えるFP64ベクター演算性能を実現した初のGPUでした。MI200は、より高いクロック、デュアルGPU、そして倍増したFP64レートにより、ピーク時のFP64ベクターレートは47.9TFLOPSに達します。AMDは、これがNvidia A100のFP64ベクターレートの4.9倍に相当することをすぐに指摘しました。

MI200はFP64マトリックスのサポートも追加しており、ピークレートはベクターユニットレートの2倍となる95.7TFLOPSです。繰り返しになりますが、比較のために言っておくと、Nvidia A100のFP64ベクターパフォーマンスは19.5TFLOPSです。もちろんこれは理論上の値なので、実際のパフォーマンスでどのように変化するかを確認する必要があります。AMDは、いくつかのワークロードにおいてA100の約3倍の性能であると主張していますが、すべてのワークロードでそれが当てはまるかどうかは断言できません。

FP16に関しては、パフォーマンスはそれほど高くありません。NvidiaのA100はFP16/BF16演算で312TFLOPSであるのに対し、MI200は383TFLOPSです。しかし、Nvidiaはスパース性も備えています。基本的に、スパース性はGPUが一部の演算、特にゼロ乗算(数学の先生によると、ゼロは常にゼロです)をスキップすることを可能にします。スパース性はA100の演算性能を2倍に高める可能性があるため、Nvidiaが優位を維持するユースケースもいくつかあるはずです。

AMD MI200 スーパーコンピュータノードのレンダリング

(画像提供:AMD)

電力要件など、まだ不明な重要な情報がいくつかあります。Nvidia A100のSXMモデルはTDPが400Wで、MI200 OAMの直接的な競合となります。噂によると、MI250 OEMは最大550WのTDPになる可能性があるとのことです。接続に関しては、NvidiaはNVLink、AMDはInfinity Fabricを採用しており、MI200 OAMは少なくとも6ウェイ構成になると思われます。

上記の画像はAMDのプレゼンテーション資料から引用したもので、オークリッジ国立研究所のFrontierスーパーコンピューターの単一ノードをレンダリングしたものと思われます。これが正確だと仮定すると、6基のMI200 OAM GPUとデュアルEPYC CPUがペアになることになります。ORNLのトーマス・ザカリア所長は、MI200 GPU 1基で、ORNLの以前のSummitスーパーコンピューターのノード全体よりも高い計算性能を実現できると述べています。Frontierは現在設置中で、来年から研究者が利用できるようになります。

AMDは現在、MI200 OAMに2つのモデルを計画しています。この議論の大部分で使用した高性能版のMI250Xは、チップレットあたり110CUを搭載していますが、下位モデルのMI250はチップレットあたり104CUにまで低下しています。実質的な変更点はこれだけなので、MI250の演算性能は約5%低下します。将来的には、MI200のPCIe版も登場する予定です。

AMDの高速データセンター向け初公開基調講演では、他にも多くの情報が明らかになりました。EPYC GenoaとBergamo CPUについては、すでに別の記事で取り上げています。IntelのAlder Lake CPUはAMDの既存のコンシューマー向け製品ラインに競合をもたらす可能性がありますが、AMDのデータセンター向け製品は依然として非常に強力です。

プレゼンテーションの MI200 セクションの完全なスライド デッキは、下のギャラリーにあります。

画像

1

12

AMD Radeon MI200 発表スライド
(画像提供:AMD)

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ジャレッド・ウォルトンは、Tom's Hardwareのシニアエディターで、GPU全般を専門としています。2004年からテクノロジージャーナリストとして活躍し、AnandTech、Maximum PC、PC Gamerなどで執筆活動を行っています。初代S3 Virgeの「3Dデセラレータ」から最新のGPUまで、ジャレッドは最新のグラフィックストレンドを常に把握しており、ゲームパフォーマンスに関する質問は彼にお任せください。