ついにNvidiaがAmpereアーキテクチャを発表する日が来た。それもそのはず。Ampereは間違いなく最高級グラフィックカードに搭載され、GPU階層に位置付けられることになるだろうが、本日のGTCデジタル発表はNvidia A100に関するもののみだ。これは主に、これから到来するエクサスケール・スーパーコンピュータとAI研究の波を念頭に設計されたGPUだ。これはNvidiaの既存のTesla V100 GPUシリーズの流れを汲むもので、Volta V100と同様に、A100シリコンがコンシューマー向けGPUに採用されることは期待できない。もしかしたら、Titanカード(Titan A100?)なら登場するかもしれないが、A100は巨大なチップなので、そのようなカードの価格については考えたくもない。
このモンスターGPU本体に加えて、6つのHBM2メモリスタックが搭載されており、Nvidiaによると合計40GBのメモリ容量を提供します。HBM2スタックは2のべき乗サイズ(つまり、スタックあたり8GB)で提供されるため、スタックの1つは何らかの冗長性、あるいは将来の製品用であると推測できます。具体的に質問したところ、「現在は5つのHBM2スタックを搭載した製品のみを出荷しています」という漠然とした回答が返ってきました。6つ目のスタックが現在のA100ボードに存在しないのか、ダミースペーサーなのか、それとも単に無効になっているのか…Nvidiaは明言しませんでした。しかし、Nvidiaは将来的に、6つのHBM2スタックをサポートし、おそらくより多くのSMを有効にしたA100ソリューションを提供する予定です(詳細は後述)。
スーパーコンピュータのHPC(高性能コンピューティング)ノード向けに、NVIDIAはNVLinkを各GPUで600GB/秒にアップグレードしました。また、NVSwitchはサーバー内の他のノードへのフルスピード接続を提供します。8ウェイのNVIDIA A100システムはすでに存在し、エネルギー省を含む顧客に出荷されています。これらのシステムは、合計4.8TBpsの帯域幅を持つ6つのNVSwitchコントローラを使用しています。
Nvidia A100は単なる巨大なGPUではなく、Nvidiaがこれまでに開発した中で最速のGPUであり、さらにその上を行くものです。A100の第3世代Tensorコアは、TF32(Tensor Float 32、基本的にはGoogleのbfloat16形式に有効桁数が3ビット追加されたもの)と呼ばれる新しいハイブリッドFP32形式を提供し、FP16の精度とFP32の指数サイズをバランスよく組み合わせたオプションを提供することを目指しています。TF32を使用するワークロードの場合、A100はシングルチップで312TFLOPSの演算能力を提供できます。これは、V100の15.7TFLOPSのFP32性能の最大20倍に相当しますが、TF32とFP32は完全に同じではないため、完全に公平な比較とは言えません。
一方、A100はピーク時のFP64性能が19.5TFLOPSです。これはV100のFP32よりも高いFP64性能であり、FP64性能の約2.5倍に相当します。しかし、NVIDIAによると、第3世代TensorコアはFP64をサポートしており、これが2.5倍の性能向上の要因となっています。TensorコアはFP64 CUDAコアと同じ命令セットではないため、CUDA FP64性能を求める場合、その性能は「わずか」9.7TFLOPSとなります。
NvidiaがA100チップのスペックを公開しましたが、その詳細は…驚くべきものでした。まず、新しいTensorコアは前世代から大きく進化しています。SMあたりのTensorコアは4つしかありませんが(VoltaとTuringは8つ)、その4つのコアで前世代の8つのコアの2倍のパフォーマンスを発揮します。Nvidiaのウェブサイトに掲載されている新しいSMの画像は「New GA100 SM with Uber Tensor Core.png」というタイトルで、その詳細をほぼ物語っています。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
もう一つ注目すべき点があります。A100チップ全体は最大128個のSMと8192個のFP32 CUDAコアを搭載していますが、初期バージョンでは108個のSMしか有効化されていません。これは、このような巨大なチップの歩留まり、そしてTSMCのN7Pノードの性能について多くのことを物語っています。Nvidiaはおそらく「良質な」ダイを将来の製品のために温存しているのでしょうが、初期のA100ではSMの約85%しか有効化されていません(V100では95%のSMが有効化されています)。このようなチップが存在し、機能するには、クリティカルパスに膨大な冗長性が組み込まれているに違いありません。
発表では触れられなかった興味深い点が一つあります。それはレイトレーシングです。Volta V100もレイトレーシングを搭載していません。これはTuringより前に登場したことも一因ですが、何よりもコンピューティング性能を重視していたためです。上記のブロック図を見ると、A100も同様の道を辿り、RTコアは他のAmpere GPUに委ねられているようです。これは、A100がコンシューマー向けではなく、おそらくTitanカードにも搭載されないことを改めて明確に示しています。あるいは、エントリーレベルのコンピューティングやディープラーニングなどに特化したTitan A100が登場するかもしれません。
SMの詳細を見ると、Volta V100と似た設計になっています。64個のFP32コアと64個のINT32コア、そして4つの大規模なTensorクラスターです。54個のSMを有効にすると、A100は合計6912個のFP32 CUDAコアを搭載し、INT32も同様に搭載されますが、FP64コアは半分の3456個です。しかし、前述のように、TensorコアはFP64演算も実行できるため、FP64とFP32の両方で同じ19.5 TFLOPSの演算性能を発揮します。注目すべきは、FP16の性能が最大78 TFLOPSであるのに対し、BF16はその半分である点です。
完全な仕様表は次のとおりです。
スワイプして水平にスクロールします
データセンターGPU | NVIDIA テスラ P100 | NVIDIA テスラ V100 | NVIDIA A100 |
GPUコードネーム | GP100 | GV100 | GA100 |
GPUアーキテクチャ | NVIDIA パスカル | NVIDIA ボルタ | NVIDIA アンペア |
GPUボードのフォームファクター | SXM | SXM2 | SXM4 |
SMS | 56 | 80 | 108 |
TPC | 28 | 40 | 54 |
FP32 コア / SM | 64 | 64 | 64 |
FP32 コア / GPU | 3584 | 5120 | 6912 |
FP64 コア / SM | 32 | 32 | 32 |
FP64 コア / GPU | 1792 | 2560 | 3456 |
INT32 コア / SM | 該当なし | 64 | 64 |
INT32 コア / GPU | 該当なし | 5120 | 6912 |
テンソルコア / SM | 該当なし | 8 | 4 |
テンソルコア / GPU | 該当なし | 640 | 432 |
GPUブーストクロック | 1480MHz | 1530MHz | 1410MHz |
FP16 累計による FP16 テンソルのピーク TFLOPS | 該当なし | 125 | 312/624 |
FP32 累積演算による FP16 テンソルのピーク TFLOPS | 該当なし | 125 | 312/624 |
FP32 累積演算によるピーク BF16 テンソル TFLOPS | 該当なし | 該当なし | 312/624 |
ピークTF32テンソルTFLOPS | 該当なし | 該当なし | 156/312 |
ピークFP64テンソルTFLOPS | 該当なし | 該当なし | 19.5 |
ピークINT8テンソルTOPS | 該当なし | 該当なし | 624/1248 |
ピークINT4テンソルTOPS | 該当なし | 該当なし | 1248/2496 |
ピークFP16 TFLOPS | 21.2 | 31.4 | 78 |
ピークBF16 TFLOPS | 該当なし | 該当なし | 39 |
ピークFP32 TFLOPS | 10.6 | 15.7 | 19.5 |
ピークFP64 TFLOPS | 5.3 | 7.8 | 9.7 |
ピークINT32 TOPS | 該当なし | 15.7 | 19.5 |
テクスチャユニット | 224 | 320 | 432 |
メモリインターフェース | 4096ビットHBM2 | 4096ビットHBM2 | 5120ビットHBM2 |
メモリサイズ | 16ギガバイト | 32GB / 16GB | 40GB |
メモリデータレート | 703 MHz DDR | 877.5 MHz DDR | 1215 MHz DDR |
メモリ帯域幅 | 720 GB/秒 | 900 GB/秒 | 1.6 TB/秒 |
L2キャッシュサイズ | 4096 KB | 6144 KB | 40960 KB |
共有メモリサイズ / SM | 64KB | 最大96KBまで設定可能 | 最大164KBまで設定可能 |
レジスタファイルサイズ / SM | 256KB | 256KB | 256KB |
レジスタファイルサイズ / GPU | 14336 KB | 20480 KB | 27648 KB |
TDP | 300ワット | 300ワット | 400ワット |
トランジスタ | 153億 | 211億 | 542億 |
GPUダイサイズ | 610 mm² | 815 mm² | 826 mm² |
TSMCの製造プロセス | 16nm FinFET+ | 12nm FFN | 7 nm N7 |
この発表前に、NvidiaがAmpere GPUを2.0GHz以上、もしかしたら2.5GHzで動作させるだろうと示唆する声を何人か目にしました。しかし、A100はブーストクロックが1410MHzであるため、その方向には進みません。ここで議論されているパフォーマンスデータはすべてブーストクロックに基づいていますが、A100は高負荷時にこのブーストクロックを維持できるかどうかは分かりません。Nvidiaはコンシューマー向けブーストクロックに関しては保守的な傾向がありますが、データセンターでは状況が異なります。
Nvidia A100単体の消費電力は今ラウンドで400Wで、P100およびV100のイテレーションよりも33%高くなっています。HBM2メモリも今ラウンドで1215MHzで動作し、これはV100から38%の大幅な増加となり、現在までに確認できた最速のHBM2実装となっています。前述のように、画像には6つのHBM2スタックが表示されていますが、Nvidiaの仕様表によると、HBM2は5120ビットインターフェースを備えており、これは1024ビットインターフェースが5つあることを意味します。歩留まりの問題でHBM2スタック全体が無効化されているのでしょうか、それとも今のところはダミーチップなのでしょうか?前者ではないかと推測しますが、Nvidiaはこれを認めておらず、現在の製品は5つのHBM2スタックを搭載して出荷されているとのみ述べています。
このGPUがすぐにGeForceに搭載されることはないことを改めて強調しておきます。コンシューマー向け製品について尋ねられたNVIDIAのCEO、ジェンスン・フアン氏は、NVIDIAはコンシューマー向け製品にはHBM2を採用していないと述べました。いずれGDDR6を搭載したAmpere GPUが登場することは間違いないでしょうが、A100シリコンは採用されないでしょう。これもまた当然のことです。826mm四方の筐体に40GBのHBM2、そして1.6TBpsの帯域幅は、FP64やTF32クラスター、RTコアの不足といった問題を考えれば、今のコンシューマー向けPCには本当に必要なものではありません。
[オビ=ワンは手を振って言う。「これは君が探している GPU ではない。」]
しかし、Nvidia A100はターゲット市場にとって間違いなく期待に応えられるはずです。スパース行列最適化(V100の(最大?)2倍の速度)をはじめとするアーキテクチャの強化に加え、A100はマルチGPUインスタンス化機能を備えており、7つのインスタンスに分割できます。スケールアウトアプリケーションでは、1つのA100でV100 GPUの7倍のインスタンス化性能を実現できます。
もちろん、スーパーコンピューターに必要なのはA100カード1枚だけではありません。もちろん、推論やインスタンス化アプリケーションなどではA100カードも存在しますが、真のパワーは新型Nvidia DGX A100にあります。6つのNVSwitchを介して4.8TBpsの双方向帯域幅を持つ8つのA100 GPUを搭載し、適切なワークロードであれば実質的に1つの巨大なGPUとして動作します。8つのGPUは、単一ノードで10 POPS(PetaOPS)のINT8性能、5 PFLOPSのFP16、2.5 TFLOPSのTF32、156 TFLOPSのFP64性能を提供します。そして、これらすべてをわずか19万9000ドルで手に入れることができます。まあ、おそらくすでにかなり長い順番待ちリストになっているので、いつか手に入れられるかもしれません。
さらなるパフォーマンスが必要ですか?Nvidia DGX A100 Superpod へようこそ。140台のDGX A100システム(各システムには8基のA100 GPUを搭載)(合計1,120基のA100 GPU)を収容するA100 Superpodは、3週間未満で構築され、700 PFLOPSのAIパフォーマンスを実現します。Nvidiaは、Saturn Vスーパーコンピュータにこのスーパーポッドを4台追加しました。Saturn Vスーパーコンピュータは、これまで1.8エクサフロップスの演算能力を持つ1,800台のDGX-1システムを搭載していました。DGX A100システムを560台追加するだけで、さらに2.8エクサフロップスが追加され、合計4.6エクサフロップスになります。
これらはすべてスーパーコンピュータやHPC用途にとっては素晴らしいニュースですが、Nvidiaのコンシューマー向け次世代GPU Ampereについてはほとんど情報が残っていません。Nvidiaはほぼ同じダイスペースに2.5倍のトランジスタを詰め込んだことが分かっており、コンシューマー向けGPUでも同じことが可能だと考えられます。FP64とディープラーニング機能の一部を省き、レイトレーシングとグラフィックコアに重点を置けば、非常に強力なGPUが誕生するはずです。その実力は、今後数日で明らかになるでしょう。
ジェンセン氏の基調講演の全 8 部は、こちらでご覧いただけます。
パート 1 - Nvidia GTC 基調講演、データセンター コンピューティングの紹介
パート 2 - Nvidia GTC 基調講演、RTX グラフィックス、DLSS、Omniverse について
パート 3 - Nvidia GTC 基調講演、GPU アクセラレーション Spark 3.0 について
パート 4 - Nvidia GTC 基調講演、Merlin とレコメンデーション システムについて
パート 5 - Nvidia GTC 基調講演、Jarvis と会話型 AI について
パート 6 - Nvidia GTC 基調講演、A100 と Ampere アーキテクチャについて(はい、これがお探しのものです)
パート 7 - Nvidia GTC 基調講演、EGX A100 と Isaac ロボティクス プラットフォームについて
パート 8 - Nvidia GTC 基調講演、Orin と自律走行車について
パート 9 - Nvidia GTC 基調講演のまとめ
画像
1
の
21

ジャレッド・ウォルトンは、Tom's Hardwareのシニアエディターで、GPU全般を専門としています。2004年からテクノロジージャーナリストとして活躍し、AnandTech、Maximum PC、PC Gamerなどで執筆活動を行っています。初代S3 Virgeの「3Dデセラレータ」から最新のGPUまで、ジャレッドは最新のグラフィックストレンドを常に把握しており、ゲームパフォーマンスに関する質問は彼にお任せください。