NvidiaのA100に弟分が登場: A10とA30

NVIDIAが昨年発表したフラッグシップGPU「A100」は、クラウドデータセンターやスーパーコンピューターに求められる最先端のパフォーマンスを提供しますが、より現実的なワークロードにはあまりにも強力で高価すぎます。そこで同社は本日、GTCでフラッグシップの弟分となる2つの新製品を発表しました。メインストリームのAI・アナリティクスサーバー向けの「A30」と、コンピューティングとグラフィックスの混合ワークロード向けの「A10」です。

NvidiaのA100シリーズデータセンターGPUの比較

スワイプして水平にスクロールします

行0 - セル0	PCIe用A100	A30	A10
FP64	9.7 TFLOPS	5.2テラフロップス	-
FP64 テンソルコア	19.5 TFLOPS	10.3 TFLOPS	-
FP32	19.5 TFLOPS	10.3 TFLOPS	31.2 TFLOPS
TF32	156 TF	82 TF	62.5 TFLOPS
Bfloat16	312 TF	165 TF	125 TF
FP16 テンソルコア	312 TF	165 TF	125 TF
INT8	624トップス	330トップス	250トップス
INT4	1248トップス	661トップス	500トップス
RTコア	-	-	72
メモリ	40 GB HBM2	24 GB HBM2	24 GB GDDR6
メモリ帯域幅	1,555 GB/秒	933 GB/秒	600 GB/秒
相互接続	12 NVLink、600 GB/秒	? NVLinks、200 GB/秒	-
マルチインスタンス	7 MIG @ 5 GB	4 MIG @ 6 GB	-
オプティカルフロー加速	-	1	-
NVJPEG	-	デコーダー1個	?
NVENC	-	?	エンコーダ1台
NVDEC	-	4つのデコーダー	デコーダー 1 個 (+AV1)
フォームファクター	FHFL	FHFL	FHFL
TDP	250W	165W	150W

Nvidia A30: AI推論のためのメインストリームコンピューティングGPU

NvidiaのA30コンピュートGPUは、まさにA100の弟分であり、同じくコンピューティング指向のAmpereアーキテクチャをベースとしています。A100と同じ機能に加え、AIおよびHPCワークロード向けの幅広い演算精度（FP64、FP64TF、FP32、TF32、bfloat16、FP16、INT8、INT4）をサポートし、6GBインスタンスによるマルチインスタンスGPU（MIG）機能も備えています。パフォーマンスの観点から見ると、A30 GPUはA100の50%強の性能を備え、FP32で10.3 TFLOPS、FP64で5.2 TFLOPS、FP16/bfloat16で165 TFLOPSとなります。

メモリに関しては、このユニットは933GB/秒の帯域幅を備えた24GBのDRAMを搭載しています（NVIDIAは約2.4GT/秒のHBM2スタックを3つ使用していると思われますが、同社はこれを認めていません）。メモリサブシステムはECCをサポートしていないようで、大規模なデータセットを扱う必要があるユーザーにとっては制約となる可能性があります。実質的に、NVIDIAはこれらのユーザーにはより高価なA100を使用してもらいたいと考えています。

Nvidia は伝統的に、コンピューティング GPU 製品の発売時に正確な仕様を公開しませんが、現時点では未確認ではありますが、A30 は 3456 個の CUDA コアを備えた A100 のちょうど「半分」ではないかと推測しています。

NvidiaのA30は、デュアルスロットのフルハイト・フルレングス（FHFL）フォームファクターを採用し、PCIe 4.0 x16インターフェースと165WのTDP（FHFL A100の250Wから低減）を備えています。また、A30は1つのNVLink（200GB/秒）をサポートします（A100の600GB/秒から低減）。

Nvidia A10: AI、グラフィックス、ビデオのためのGPU

NvidiaのA10は、コンピューティング指向のA100やA30から派生したものではなく、グラフィックス、AI推論、ビデオエンコード/デコードのワークロードに使用できる全く異なる製品です。A10は、グラフィックスとAI向けにFP32、TF32、blfoat16、FP16、INT8、INT4形式をサポートしていますが、HPCに必要なFP64はサポートしていません。

A10は、PCIe 4.0 x16インターフェースを備えたシングルスロットのFHFLグラフィックスカードで、Nvidia RTX Virtual Workstation（vWS）ソフトウェアを実行するサーバーに搭載され、AIとグラフィックスの両方の機能を必要とするワークステーションをリモートで駆動します。A10は、アーティスト、デザイナー、エンジニア、そして科学者（FP64を必要としない）にとって、リモートワークにおける主力製品となることが期待されています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

NvidiaのA10はGA102シリコン（またはその派生品）をベースにしているようですが、INT8とINT4の精度をサポートしているため、NvidiaのGeForce RTX 3080/3090およびRTX A6000カードに搭載されているプロセッサと物理的に同じであるとは100%確信できません。一方、A10の性能（31.2 FP32 TFLOPS、125 FP16 TFLOPS）は、GeForce RTX 3080と同程度です。このカードには600GB/秒の帯域幅を提供する24GBのGDDR6メモリが搭載されており、これはRTX 3090のメモリインターフェース幅とほぼ同じですが、GDDR6Xのクロック速度（または消費電力や温度）は考慮されていません。