米国の制裁措置はNvidia RTX 4090D「Dragon」やH20 GPUには影響しないと「明確化」[更新]

（画像提供：Nvidia）

2024 年 4 月 4 日午前 6 時 15 分更新 (太平洋標準時): 米国の制裁措置が改良され「明確化」されたことにより、中国向けの Nvidia の既存の制裁準拠 GPU (具体的には H20 および RTX 4090D) には影響がないことが通知されました。

新しい文書には輸出規制に関する「訂正と明確化」が含まれていますが、一部の表現は当社および他のサイトによって混乱を招き、誤解を招くものでした。具体的には、文書には「調整ピーク性能」（APP）と「加重テラフロップス」（WT）について記載されており、70TFLOPS以下の制限が設けられています。NVIDIAから制限事項と明確化に関する追加情報を受け取っており、要約すると、制裁措置に準拠したH20および4090D GPUは影響を受けないとのことです。

4090Dが影響を受けない具体的な理由は、定義に関係しています。まず、ガイドラインは個々のGPUではなくコンピュータシステムを対象としており、より具体的にはメモリコヒーレンスを備えたシステムを対象としています。例えば、4ウェイDGX H100システムはこの分類に該当します。

Nvidia からの電子メールには、次のように記載されています。「プロセッサの組み合わせがメモリを共有するのは、ソフトウェアメカニズムを介さずに、キャッシュラインまたはメモリワードのハードウェア転送を通じて、任意のプロセッサがシステム内の任意のメモリ位置にアクセスできる場合です。これは、4A003.c、z.1、または z.3 で指定されている「電子アセンブリ」を使用して実現できます。」

もう1つの重要な点は、「調整済みピーク性能」がFP64スループットに適用され、それがベクトルプロセッサかスカラー（非ベクトル）プロセッサかに基づいてスケーリングされるため、「重み付け」されていることです。つまり、Nvidia Tensorコアなどのベクトルユニットを介して実行されるFP64は、64ビット演算を実行するCPUを介して実行されるFP64とは異なります。（CPUにもベクトルユニットが含まれる場合があるので、これは簡略化した説明です。）

「加重テラフロップス」と「調整ピーク性能」を求めるには、システムのFP64スループット合計値を使用します。ベクタープロセッサの場合は0.9倍、非ベクタープロセッサの場合は0.3倍します。4ウェイDGX H100を例に挙げると、H100 SXM GPUのベクターFP64スループットは67テラフロップスです。これを4ウェイで合計すると268テラフロップスとなり、0.9倍すると241.2テラフロップスとなり、加重テラフロップスの上限である70テラフロップスを大きく上回ります。もちろん、HGX H100は最近のアップデート以前から既にこの制限を受けていました。

では、実際に何が変わったのでしょうか？端的に言って、それほど大きな変化はありません。これは新たな輸出規制や制限ではなく、公式の「速度制限」を明確にするための追加事項です。RTX 4090DはFP64スループットがほとんどなく、わずか1.15 TFLOPSですが、それでも4,800 TPPの制限に近づいています。

未編集のオリジナル記事（上記の「説明」を誤解していたため）：米国政府は、中国への半導体輸出規制を見直し、より多くの高性能ハードウェアを対象としました。具体的には、70「加重テラフロップス」を超える性能を持つ半導体チップは、許可なく中国への輸出が禁止されました。この緩和された制限には、NVIDIAの中国限定RTX 4090D「Dragon」グラフィックカードも含まれます。

RTX 4090Dは、数ヶ月前に発令された米国による中国への輸出禁止措置に対応するために特別に開発されました。RTX 4090は総処理能力（TPP）の上限である4,800を10%超過したため、NVIDIAは4090Dをその上限（4,707 TPP）以下に抑える設計にしました。驚くべきことに、この新しい70 TFLOPSという上限は、RTX 4090Dの73.5 TFLOPSという性能値からわずか5%しか低い値ではありません。

この変更は一見避けられないように思えましたが、果たして意味があるのか疑問に思います。RTX 4090Dの発売後、米国政府はNVIDIAに対し、その戦略は見逃せないと警告し、NVIDIAの中国専用GPUの禁止に動いています。しかし、GPUの「速度制限」が5%低下することは本当に重要なのでしょうか？もしそうなら、NVIDIAがその制限を下回る新しいGPUを製造した場合、何が起こるのでしょうか？

RTX 4090DはRTX 4090のダウンサイジング版で、14,592基のCUDAコアと425WのTBPを備えています。前モデルのRTX 4090と比較すると、RTX 4090DはCUDAコア数が12.8%少なく、TDPは5.9%低くなっています。その他のコアスペックは両モデルで同じです。唯一の例外はベースクロックで、2.23GHzから2.28GHzにわずかに引き上げられています。

スワイプして水平にスクロールします

RTX 4090Dと4090の仕様比較
行0 - セル0	RTX 4090D	RTX 4090
SMS	114	128
CUDAコア	14,592	16,384
テンソルコア	456	512
RTコア	114	128
ブーストクロック	2,520MHz	2,520MHz
ベースクロック	2,280MHz	2,235MHz
VRAM速度	21Gbps	21Gbps
VRAM容量	24GB GDDR6X	24GB GDDR6X
VRAMバス幅	384ビット	384ビット
VRAM帯域幅	1,008GB/秒	1,008GB/秒
L2キャッシュ	72MB	72MB
ROP	176	176
TMUs	456	512
TGP	425W	450W
総処理能力	4707	5285