AMDがInstinct MI100 GPUを発表、CDNAが10TFLOPSの壁を突破

AMDは本日、7nmプロセス採用のInstinct MI100 GPUを発表し、Dell、HPE、Supermicroといった企業から多数のデザインウィンを獲得しました。Instinct MI100は、AMDのコンピューティング重視型CDNA GPUアーキテクチャの初代モデルです。この新アーキテクチャは、FP64で最大11.5 TFLOPSのピークスループットを実現し、Instinct MI100はFP64で10 TFLOPSを突破した初のGPUとなり、前世代のMI50と比較して3倍の性能向上を実現しています。また、FP32ワークロードでは23.1 TFLOPSのピークスループットを誇り、どちらのカテゴリでもNVIDIAの強力なA100 GPUを上回っていますが、他の数値形式では劣勢に立たされています。

データセンターGPUに期待されるように、このPCIe 4.0カードはAIおよびHPCワークロード向けに設計されており、カード間のピアツーピア（P2P）I/O帯域幅を2倍にするAMDの第2世代Infinity Fabricもサポートしています。このファブリックにより、カードはCPUと統合メモリアドレス空間を共有できます。これは、現在データセンタークラスのGPUを出荷している唯一のCPUベンダーとしての地位を活かすAMDにとって重要な利点です。このカードは、3つのInfinity Fabricリンクで最大340GB/秒の総合スループットを誇り、クアッドコアハイブ（サーバーあたり最大2つ）に展開できるように設計されており、各ハイブは最大552GB/秒のP2P I/O帯域幅をサポートします。

Instinct MI100は、FP32、FP16、bFloat 16、INT8、INT4といった単精度および混合精度の行列演算のパフォーマンスを向上させるAMDの新しいMatrix Coreテクノロジーもサポートしています。このテクノロジーにより、FP32のパフォーマンスは最大46.1TFLOPSまで向上します。

これらのカードには、4つのスタックに分散された32GBのHBM2メモリが搭載され、合計最大1.23TB/sの帯域幅を提供します。AMDは、これらのカードはNVIDIAのA100 GPUと比較して、1ドルあたりのピークパフォーマンスが最大1.8倍から2.1倍優れていると主張しています。

AMD はまた、オープンソースの ROCm 4.0 開発ソフトウェアにオープンソースコンパイラが追加され、OpenMP 5.0、HIP、PyTorch、Tensorflow の統合サポートが追加されたことも発表しました。

画像

の

このカードはTDP 300Wで、標準的なPCIeアドインカード（AIC）フォームファクタを採用し、電源用の8ピンコネクタを2つ備えています。データセンター向けであることから、ディスプレイ出力は搭載されておらず、パッシブ冷却方式のこのカードには、効率的なエアフローを実現する大型メッシュの背面I/Oシールドが搭載されています。

スワイプして水平にスクロールします

行0 - セル0	ピーククロック	ストリームプロセッサ	TDP	HBM2メモリ	メモリ帯域幅	PCIeインターフェース
7nm インスティンクト MI100	1502 MHz	7680 (120 CU)	300W	32GB	1.23 TB/秒	4.0
7nm インスティンクト MI50	1725MHz	3840 (60 CU)	300W	32GB	1.024 TB/秒	4.0
7nm Nvidia A100 (PCIe)	1410MHz	6912	250W	40GB	1.555 TB/秒	4.0
7nm Nvidia A1000 (HGX)	1410MHz	6912	400W	40GB	1.555 TB/秒	4.0

AMDはMI100のピーククロックレートを前世代のMI50の1,725MHzから1,502MHzに引き下げたが、コンピューティングユニットの数は倍増の120個となった。同社はまた、メモリ帯域幅を1.23TB/sに向上させた。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

スワイプして水平にスクロールします

行0 - セル0	FP64	FP32	マトリックス FP32	マトリックスFP16	INT4/INT8	bFloat16
7nm インスティンクト MI100	11.5 TFLOPS	23.1 TFLOPS	46.1 TFLOPS	184.6 TFLOPS	184.6	92.3
7nm インスティンクト MI50	6.6 TFLOPS	13.3 TFLOPS	13.3 TFLOPS	26.5 TFLOPS	-	-
7nm Nvidia A100 (PCIe)	9.7 TFLOPS	19.5 TFLOPS	156 TFLOPS（テンソル）	312 TFLOPS	624 / 1,248（テンソルコア）	624 / 1,248（テンソルコア）
7nm Nvidia A1000 (HGX)	9.7 TFLOPS	19.5 TFLOPS	156 TFLOPS（テンソル）	312 TFLOPS	1,248（テンソルコア）	1,248（テンソルコア）

CDNAアーキテクチャの改良（後述）による実質的な効果は、ピークFP64およびFP32スループットが1.74倍、マトリックスFP32では驚異的な3.46倍、マトリックスFP16では6.97倍の向上を実現しています。これらの向上は、混合データタイプに最適化された新しいマトリックスコアエンジンによってCUを強化するAMDの新しいマトリックスコアテクノロジーによるものです。

AMD の MI100 は、ピーク FP64 および FP32 スループットで Nvidia A100 を約 15% 上回っていますが、Nvidia の A100 は、マトリックス FP32、FP16、INT4/INT8、および bFloat16 ワークロードでは依然としてはるかに優れたスループットを提供しています。

AMDは、MI100が2000年当時世界最速のスーパーコンピュータであった6メガワットのASCI Whiteに匹敵すると謳っています。このスーパーコンピュータは重量106トン、性能は12.3TFLOPSでした。一方、MI1000は消費電力を300Wに抑え、重量はわずか2.56ポンド（約1.1kg）で、性能は11.5TFLOPSです。

AMD Instinct MI100 CDNAアーキテクチャ

画像

の

AMDはグラフィックスアーキテクチャを、グラフィックス重視の作業（ゲーム）向けのRDNAプラットフォームと、コンピューティングワークロード（HPC/AIワークロード）向けのCDNAに分割し、それぞれのアーキテクチャに的を絞った機能強化を実現しました。当然のことながら、CDNA設計には、ラスタライズ、テッセレーション、グラフィックスキャッシュ、ブレンディング、ディスプレイエンジンなど、グラフィックス処理に必要な従来の固定機能ブロックの多くが搭載されていません。CDNAアーキテクチャは、物体検出に重点を置く機械学習ワークロードにとって重要な、HEVC、H.264、VP9デコード用のロジックを一部保持しています。

7nm Instinct MI100はCDNAアーキテクチャの最初のイテレーションであり、CPUとの16GT/sリンク（双方向32GB/s）をサポートするPCIe 4.0インターフェースを搭載しています。AMDは7nmダイのサイズ、7nmのリビジョン、トランジスタ数を公開していませんが、120個の拡張CUが4つの演算エンジンに分割されていることは分かっています。各CUは、様々な数値形式の演算スループットを向上させるMatrix Core Engineを搭載しており、AMDはこれを次のように説明しています。

クラシックGCNコンピューティングコアには、スカラー命令とベクター命令に最適化された多様なパイプラインが搭載されています。特に、各CUには、スカラーレジスタファイル、スカラー実行ユニット、そしてスカラーデータキャッシュが搭載されており、共通制御ロジックやアドレス計算など、ウェーブフロント全体で共有される命令を処理します。同様に、CUには4つの大きなベクターレジスタファイル、FP32向けに最適化された4つのベクター実行ユニット、そしてベクターデータキャッシュも搭載されています。一般的に、ベクターパイプラインは16ビット幅で、64ビット幅の各ウェーブフロントは4サイクルで実行されます。

AMD CDNAアーキテクチャは、GCNのスカラーとベクトルの基盤を基盤とし、行列を第一級演算として追加すると同時に、機械学習用の新しい数値形式をサポートし、GCNアーキテクチャ向けに開発されたあらゆるソフトウェアとの後方互換性を維持しています。これらのMatrix Core Engineは、ウェーブフロントレベルの命令ファミリーであるMatrix Fused Multiply-Add（MFMA）を追加します。MFMAファミリーは、混合精度演算を実行し、8ビット整数（INT8）、16ビット半精度FP（FP16）、16ビットブレインFP（bf16）、32ビット単精度FP（FP32）の4つの異なる入力データを使用してKxN行列を演算します。すべてのMFMA命令は、32ビット整数（INT32）またはFP32のいずれかの出力を生成するため、行列乗算の最終累算段階でのオーバーフローの可能性を低減します。

行列実行ユニットは MFMA 命令を処理し、多くの行列乗算入力値が再利用されるため、レジスタファイルの読み取り回数を削減します。

共有8MBのL2キャッシュは、物理的に32スライス（MI50の2倍）に分割され、16ウェイ・セットアソシエイティブ方式を採用しています。32スライス全体では、最大6TB/秒の総スループットを実現します。メモリコントローラは、2.4GT/秒のECC HBM2を4段または8段スタックでサポートし、理論上の総スループットは1.23TB/秒です。これは前世代モデルと比較して20%高速です。

AMD 第2世代 Infinity Fabric

画像

の

AMDのCPU-GPU間Infinity Fabricは、同社が数々のエクサスケール契約を獲得する上で重要な進歩であることが証明されています。このテクノロジーは、CPUとGPU間の共有メモリ/キャッシュの一貫性を実現し、システム内のデータ移動量を削減することでレイテンシの削減、パフォーマンスの向上、消費電力の削減を実現します。

第2世代のInfinity Fabricリンクは、前世代と同様に23GT/sで動作し、16ビット幅ですが、最新リビジョンでは3つ目のリンクをサポートし、クアッドGPU構成を可能にします。この新しい設計はクアッドGPUハイブで最も効果を発揮し、一般的な2ソケットサーバーではCPUごとに1つ、合計2つのハイブをサポートします。

これらのハイブは、従来のアクセラレータがリングトポロジを使用していたのに対し、完全接続トポロジで動作します。新しいトポロジは、オールリデュースやスキャッター/ギャザーなどの操作のパフォーマンスを向上させます。

全体として、AMDの第2世代Infinity Fabricは、ピアツーピア（P2P）I/O帯域幅が2倍になり、カード1枚あたり最大340GB/秒（3リンク）のスループットを実現します。クアッドGPUハイブでは最大552GB/秒のP2P I/Oスループットを実現しており、このファブリックは線形に拡張できないことを示しています。

完全接続トポロジと共有アドレス空間は、AMDがNvidiaに対して持つ重要な優位性であり、複数の注目すべきエクサスケール・スーパーコンピューティング契約につながっています。注目すべきは、Nvidiaはまだエクサスケール・スーパーコンピューティング契約を発表していないものの、AMDのアクセラレータは既にスーパーコンピューティングおよびHPC分野で広く採用されていることです。

画像

の