Nvidiaの中国製A800 GPUの性能が明らかに

（画像提供：Nvidia）

中国におけるNVIDIAの高性能コンピューティングハードウェアへの圧倒的な需要に関する比較的簡潔な記事から、中国市場向けに製造されたNVIDIAの謎めいたA800コンピューティングGPUの性能が明らかになった。MyDriversによると、A800はA100 GPUの70%の速度で動作しながら、NVIDIAが販売できる処理能力を制限する厳格な米国輸出基準を満たしているという。

発売から3年が経過したNvidiaのA100は、HPCワークロード向けに9.7 FP64/19.5 FP64 Tensor TFLOPS、AIワークロード向けに最大624 BF16/FP16 TFLOPS（スパース性あり）という驚異的なパフォーマンスを発揮します。約30%の性能低下があったとしても、これらの数値は依然として強力です。6.8 FP64/13.7 FP64 Tensor TFLOPS、そして437 BF16/FP16（スパース性あり）という驚異的な性能です。

スワイプして水平にスクロールします

行0 - セル0	ビレン BR104	エヌビディアA800	エヌビディアA100	エヌビディア H100
フォームファクター	FHFLカード	FHFL カード (?)	SXM4	SXM5
トランジスタ数	?	542億	542億	800億
ノード	N7	N7	N7	4N
力	300W	?	400W	700W
FP32 テラフロップス	128	13.7 (?)	19.5	60
TF32+ TFLOPS	256	?	?	?
TF32 テラフロップス	?	109/218* (?)	156/312*	500/1000*
FP16 TFLOPS	?	56 (?)	78	120
FP16 TFLOPS テンソル	?	218/437*	312/624*	1000/2000*
BF16 TFLOPS	512	27	39	120
BF16 TFLOPS テンソル	?	218/437*	312/624*	1000/2000*
INT8	1024	?	?	?
INT8 TFLOPS テンソル	?	437/874*	624/1248*	2000/4000*

* スパース性あり

米国が2021年10月に導入した輸出規制により、41,600立方フィート（1,178立方メートル）以下のスペースに100 FP64ペタフロップスまたは200 FP32ペタフロップスを超える性能を持つスーパーコンピューターを実現する米国技術の中国への輸出が禁止されました。この輸出規制は、中国に拠点を置く企業に販売される個々のコンピューティングGPUの性能に具体的な制限を設けているわけではありませんが、スループットとスケーラビリティには制限を課しています。

新しい規制の施行後、NVIDIAは、取得が困難な輸出許可なしに、超ハイエンドのA100およびH100コンピューティングGPUを中国の顧客に販売できなくなりました。中国のハイパースケーラーが求めるパフォーマンスへの需要を満たすため、同社はA100 GPUの縮小版であるA800を発表しました。これまで、このGPUの性能は明らかではありませんでした。

消費者と企業の両方で人工知能の利用が増加するにつれ、適切なワークロードに対応できる高性能ハードウェアの人気が急上昇しています。NVIDIAはAIメガトレンドの恩恵を最も多く受けている企業の一つであり、そのため同社のGPUは非常に高い需要があり、中国では低価格版のA800でさえ完売しています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

BirenのBR100はOAMフォームファクタで提供され、最大550Wの消費電力を誇ります。このチップは、同社独自の8ウェイBLinkテクノロジーをサポートしており、システムあたり最大8基のBR100 GPUを搭載可能です。一方、300WのBR104は、FHFLデュアルワイドPCIeカードフォームファクタで提供され、最大3ウェイのマルチGPU構成をサポートします。EETrend（VideoCardz経由）によると、どちらのチップもPCIe 5.0 x16インターフェースを採用し、アクセラレータにはCXLプロトコルが採用されています。

Biren氏によると、両チップともTSMCの7nmクラスの製造プロセスで製造されているとのことだ（N7、N7+、N7Pのいずれを使用しているかは明らかにしていない）。大型のBR100には770億個のトランジスタが搭載されており、同じくTSMCのN7ノードで製造されているNvidia A100の542億個を上回っている。また、同社はTSMCのレチクルサイズの制限を克服するために、チップレット設計とファウンドリのCoWoS 2.5D技術を採用する必要があったと述べている。これは完全に理にかなっている。NvidiaのA100はレチクルサイズに近づいており、BR100はトランジスタ数が多いため、さらに大きくなるはずだからだ。

仕様から判断すると、BR100 は基本的に 2 つの BR104 を使用していると推測できますが、開発者はこれを正式に確認していません。

Biren は、BR100 OAM アクセラレータを商品化するために、Inspur と協力し、2022 年第 4 四半期からサンプル出荷が開始される 8 ウェイ AI サーバーを開発しました。Baidu と China Mobile は、Biren のコンピューティング GPU を使用する最初の顧客の 1 つになります。