NVIDIAが昨年発表したフラッグシップGPU「A100」は、クラウドデータセンターやスーパーコンピューターに求められる最先端のパフォーマンスを提供しますが、より現実的なワークロードにはあまりにも強力で高価すぎます。そこで同社は本日、GTCでフラッグシップの弟分となる2つの新製品を発表しました。メインストリームのAI・アナリティクスサーバー向けの「A30」と、コンピューティングとグラフィックスの混合ワークロード向けの「A10」です。
NvidiaのA100シリーズデータセンターGPUの比較
スワイプして水平にスクロールします
行0 - セル0 | PCIe用A100 | A30 | A10 |
FP64 | 9.7 TFLOPS | 5.2テラフロップス | - |
FP64 テンソルコア | 19.5 TFLOPS | 10.3 TFLOPS | - |
FP32 | 19.5 TFLOPS | 10.3 TFLOPS | 31.2 TFLOPS |
TF32 | 156 TF | 82 TF | 62.5 TFLOPS |
Bfloat16 | 312 TF | 165 TF | 125 TF |
FP16 テンソルコア | 312 TF | 165 TF | 125 TF |
INT8 | 624トップス | 330トップス | 250トップス |
INT4 | 1248トップス | 661トップス | 500トップス |
RTコア | - | - | 72 |
メモリ | 40 GB HBM2 | 24 GB HBM2 | 24 GB GDDR6 |
メモリ帯域幅 | 1,555 GB/秒 | 933 GB/秒 | 600 GB/秒 |
相互接続 | 12 NVLink、600 GB/秒 | ? NVLinks、200 GB/秒 | - |
マルチインスタンス | 7 MIG @ 5 GB | 4 MIG @ 6 GB | - |
オプティカルフロー加速 | - | 1 | - |
NVJPEG | - | デコーダー1個 | ? |
NVENC | - | ? | エンコーダ1台 |
NVDEC | - | 4つのデコーダー | デコーダー 1 個 (+AV1) |
フォームファクター | FHFL | FHFL | FHFL |
TDP | 250W | 165W | 150W |
Nvidia A30: AI推論のためのメインストリームコンピューティングGPU
NvidiaのA30コンピュートGPUは、まさにA100の弟分であり、同じくコンピューティング指向のAmpereアーキテクチャをベースとしています。A100と同じ機能に加え、AIおよびHPCワークロード向けの幅広い演算精度(FP64、FP64TF、FP32、TF32、bfloat16、FP16、INT8、INT4)をサポートし、6GBインスタンスによるマルチインスタンスGPU(MIG)機能も備えています。パフォーマンスの観点から見ると、A30 GPUはA100の50%強の性能を備え、FP32で10.3 TFLOPS、FP64で5.2 TFLOPS、FP16/bfloat16で165 TFLOPSとなります。
メモリに関しては、このユニットは933GB/秒の帯域幅を備えた24GBのDRAMを搭載しています(NVIDIAは約2.4GT/秒のHBM2スタックを3つ使用していると思われますが、同社はこれを認めていません)。メモリサブシステムはECCをサポートしていないようで、大規模なデータセットを扱う必要があるユーザーにとっては制約となる可能性があります。実質的に、NVIDIAはこれらのユーザーにはより高価なA100を使用してもらいたいと考えています。
Nvidia は伝統的に、コンピューティング GPU 製品の発売時に正確な仕様を公開しませんが、現時点では未確認ではありますが、A30 は 3456 個の CUDA コアを備えた A100 のちょうど「半分」ではないかと推測しています。
NvidiaのA30は、デュアルスロットのフルハイト・フルレングス(FHFL)フォームファクターを採用し、PCIe 4.0 x16インターフェースと165WのTDP(FHFL A100の250Wから低減)を備えています。また、A30は1つのNVLink(200GB/秒)をサポートします(A100の600GB/秒から低減)。
Nvidia A10: AI、グラフィックス、ビデオのためのGPU
NvidiaのA10は、コンピューティング指向のA100やA30から派生したものではなく、グラフィックス、AI推論、ビデオエンコード/デコードのワークロードに使用できる全く異なる製品です。A10は、グラフィックスとAI向けにFP32、TF32、blfoat16、FP16、INT8、INT4形式をサポートしていますが、HPCに必要なFP64はサポートしていません。
A10は、PCIe 4.0 x16インターフェースを備えたシングルスロットのFHFLグラフィックスカードで、Nvidia RTX Virtual Workstation(vWS)ソフトウェアを実行するサーバーに搭載され、AIとグラフィックスの両方の機能を必要とするワークステーションをリモートで駆動します。A10は、アーティスト、デザイナー、エンジニア、そして科学者(FP64を必要としない)にとって、リモートワークにおける主力製品となることが期待されています。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
NvidiaのA10はGA102シリコン(またはその派生品)をベースにしているようですが、INT8とINT4の精度をサポートしているため、NvidiaのGeForce RTX 3080/3090およびRTX A6000カードに搭載されているプロセッサと物理的に同じであるとは100%確信できません。一方、A10の性能(31.2 FP32 TFLOPS、125 FP16 TFLOPS)は、GeForce RTX 3080と同程度です。このカードには600GB/秒の帯域幅を提供する24GBのGDDR6メモリが搭載されており、これはRTX 3090のメモリインターフェース幅とほぼ同じですが、GDDR6Xのクロック速度(または消費電力や温度)は考慮されていません。
価格と販売状況
Nvidia は、パートナー各社が今年後半に A30 および A10 GPU を搭載したマシンの提供を開始すると予想しています。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。