
先週、中国のAI情勢に大きな変化が起きた。トランプ大統領は中国に販売されるAMDとNvidiaのハードウェアに15%の売上税を課し、北京は安全上の懸念からNvidia H20 GPUの新規購入を凍結し、DeepSeekはHuaweiのAscend NPUでR2モデルをトレーニングする計画を断念した。これにより、中国がAI分野で国産ハードウェアに頼ることができるかどうか疑問が生じた。
中国は、5カ年戦略計画の一環として、特に国家安全保障の鍵となる新興分野において、自国の技術的自立を達成することを長年の目標として掲げてきました。しかし、長年にわたりファブスタートアップ企業や自国の新興半導体産業に数十億ドルを投じてきたにもかかわらず、中国は依然として西側諸国に遅れをとっており、AIアクセラレーターを開発できる、真に独立した独自のサプライチェーンの構築に苦戦しています。さらに、NVIDIAのCUDAに匹敵する効果的なソフトウェアエコシステムが欠如しており、これがさらなる課題を生み出しています。これが中国のAI開発にどのような影響を与えているのか、詳しく見ていきましょう。
中国は自国のハードウェアに頼りたい
しかし、AI普及ルールが廃止され、トランプ政権がAMDのInstinct MI308とNvidiaのHGX H20の中国企業への販売を禁止して以来、中国は極めて重要なAI企業を国産ハードウェアの使用に切り替える取り組みを倍増させた。
その結果、米国政府がAMDとNvidiaに中国特有のAIアクセラレーターを中華人民共和国の顧客に販売するための輸出ライセンスを付与する計画を発表したとき、トランプ米大統領は中国に販売されるAMDとNvidiaのハードウェアに前例のない15%の売上税を課すと発表した。
中国政府はその後、NVIDIAのHGX H20ハードウェアの出荷を戦略的な規模とし、セキュリティ上の脅威の疑いを調査する間、大手クラウドサービスプロバイダーに対し、NVIDIAのH20 GPUの新規購入を停止するよう指示しました。この動きは、国産ハードウェアの需要を押し上げる可能性があります。これは、Biren Technology、Huawei、Enflame、Moore Threadsなどの企業にとって朗報となるかもしれません。
しかし、この話には意外な展開がある。DeepSeekは、パフォーマンスの不安定さ、チップ間接続の遅さ、そしてHuaweiのニューラルネットワーク向けコンピューティングアーキテクチャ(CANN)ソフトウェアツールキットの限界を理由に、国産Huawei製Ascendプラットフォームでの次世代R2モデルの学習を断念せざるを得なかったと報じられているのだ。こうした状況から、中国はAI開発において国産ハードウェアに頼ることができるのだろうかという疑問が浮かび上がる。
Nvidiaが優勢
NVIDIAは10年にわたり、安定性と汎用性に優れたCUDAソフトウェアスタックをフルサポートした高性能AI GPUを提供してきました。そのため、中国の大手AIハイパースケーラー(Alibaba、Baidu、Tencent、そしてDeepSeekのような小規模企業)の多く、あるいはすべてがNVIDIAのハードウェアとソフトウェアを使用しているのも不思議ではありません。AlibabaとBaiduは独自のAIアクセラレーター(主に推論用)を開発していますが、依然としてNVIDIAのHGX H20プロセッサを大量に調達しています。
SemiAnalysisは、Nvidiaが昨年約100万個のHGX H20プロセッサを生産し、そのほぼ全てが中国企業によって購入されたと推定しています。2024年に中国でこれに匹敵する数のAIアクセラレータを供給する企業は他にありません。しかし、アナリストのレナート・ハイム氏は、Huaweiが2024年にTSMCから約300万個のAscend 910Bダイを違法に入手したと推測しています。これは、2024年から2025年にかけて約140万~150万個のAscend 910Cチップを製造するのに十分な量です。これは、Nvidiaが同時期に中国に供給した量に匹敵します。しかし、HuaweiはPangu AIモデルのトレーニングに十分なAscendプロセッサを保有しているかもしれませんが、他の企業は別の選択肢を持っているようです。
DeepSeekは、5万個のHopperシリーズGPUを搭載したクラスターでR1モデルを学習しました。このクラスターは、HGX H20を3万個、H800を1万個、H100を1万個搭載していました。これらのチップは、DeepSeekの投資家であるHigh-Flyer Capital Managementによって購入されたと報じられています。そのため、中国で最も影響力のあるAIソフトウェア開発企業と言えるDeepSeekのソフトウェアスタック全体が、NVIDIAのCUDAを基盤として構築されているのは理にかなっています。
しかし、DeepSeekの次期R2モデルのトレーニング用スーパークラスターを構築する時期が来た際、同社は当局からHuaweiのAscend 910シリーズプロセッサへの切り替えを説得されたと報じられています。しかし、パフォーマンスの不安定さ、チップ間接続の遅延、そしてHuaweiのCANNソフトウェアツールキットの制限に直面したため、トレーニングにはNVIDIAのハードウェアに戻し、推論にはAscend 910 AIアクセラレータを使用することを決定しました。これらのアクセラレータについて言えば、DeepSeekが最新のAscend 910CをベースにしたHuaweiの最新のCloudMatrix 384を使用したのか、それとも別のものを使用したのかは不明です。
DeepSeekはこれらの課題を公式に公表していないため、 Financial Timesの報道に頼るしかありません。同紙は、HuaweiのAscendプラットフォームがDeepSeekにとってうまく動作しなかったと主張しています。なぜ不安定だと判断されたのかは別の問題です。DeepSeekがCANNとの連携を開始したのは今年の春になってからであり、NvidiaのCUDAからHuaweiのCANNツールキットへのプログラム移植に十分な時間がなかった可能性も十分にあります。
正しい方向への一歩
中国のハイテク産業は、企業が秘密を厳重に守り、米国政府の監視を逃れる傾向があるため、分析が非常に複雑です。しかし、この夏、中国のAIハードウェア開発に劇的な影響を与える可能性のある2つの重要な出来事がありました。1つ目は、モデルチップ・エコシステム・イノベーション・アライアンスの設立、2つ目は、ファーウェイがCANNソフトウェアスタックをオープンソース化したことです。
モデルチップ・エコシステム・イノベーション・アライアンスには、Huawei、Biren Technologies、Enflame、Moore Threadsなどが参加しています。このグループは、ハードウェア、モデル、インフラストラクチャを連携させた、完全にローカライズされたAIスタックの構築を目指しており、これはNVIDIAなどの他社製ハードウェアとは一線を画すものです。その成功は、エコシステムの断片化を軽減するために、共通プロトコルとフレームワーク間の相互運用性を実現できるかどうかにかかっています。低レベルのソフトウェア統合は、Arm、PowerVR、カスタムISAなどの多様なアーキテクチャが存在するため困難かもしれませんが、中レベルの標準化はより現実的です。
共通のAPIとモデルフォーマットを基盤として連携することで、同グループはモデルを国内プラットフォーム間で移植可能にすることを目指しています。開発者は一度コードを書けば(例えばPyTorchで)、中国製のアクセラレータで実行できるようになります。これにより、ソフトウェアの連携が強化され、イノベーションが簡素化され、中国が自国のハードウェアを用いて世界的に競争力のあるAI産業を構築できるようになるでしょう。また、上海総商会AI委員会と呼ばれる、実世界の産業へのAI応用に焦点を当てた連合体も存在し、これもハードウェアメーカーとソフトウェアメーカーを結びつけています。
新しいアライアンスへの取り組みの一環として、あるいはAscend 910シリーズを中国企業の間で選ばれるプラットフォームにするという全体的な取り組みの一環として、ファーウェイは8月初旬にAIとAscendハードウェア向けに特別に最適化されたCANNをオープンソース化した。
今夏まで、HuaweiのAscend NPU向けAIツールキットは制限された形で配布されていました。開発者は、TensorFlow、PyTorch、MindSporeをハードウェア上で実行するための、プリコンパイル済みパッケージ、ランタイムライブラリ、バインディングにアクセスできました。これらのコンポーネントは、ユーザーがモデルの学習とデプロイを行うには十分に機能していましたが、コンパイラやライブラリといった基盤となるスタックは非公開のままでした。
CANNがオープンソース化
今、この障壁は取り除かれました。同社はCANNツールチェーン全体のソースコードを公開しましたが、具体的に何が明らかになるのかは正式には確認されていないため、推測することしかできません。公開された技術のリストには、モデル命令をAscend NPUが理解できるコマンド(低レベルAPIなど)に変換するコンパイラ、コア数学関数を高速化するAI演算子ライブラリ、システムレベルのランタイムなどが含まれると考えられます。これにより、メモリ、スケジューリング、通信の管理が可能になります。これは公式に確認されたものではなく、CANNのオープンソース化によって何が可能になるかについての推測に過ぎません。
CANNをオープン化することで、ファーウェイは学術機関、スタートアップ企業、そして他の企業から幅広い開発者コミュニティを自社のプラットフォームに引きつけ、パフォーマンスチューニングやフレームワーク統合(TensorFlowやPyTorch以外)の実験を行えるようになります。これは必然的にCANNの進化とバグ修正を加速させるでしょう。最終的には、これらの取り組みによってCANNはCUDAの提供する機能に近づき、ファーウェイの強みとなるでしょう。
ファーウェイにとって、他のモデルチップアライアンスメンバーに先駆けてCANNをオープン化することは有益でした。同社は既に最も成熟したAIハードウェアプラットフォームを量産しており、Ascendプラットフォームを他社が信頼できるベースラインソフトウェアエコシステムとして位置付ける必要があったからです。この動きにより、CANNは(少なくとも現時点では)国内のモデルおよびハードウェア開発者にとってデフォルトの基盤となります。この第一歩を踏み出すことで、ファーウェイは相互運用性の基準点を設定し、共通標準へのコミットメントを示しました。これは、中国のAIソフトウェアスタックの断片化を軽減するのに役立つ可能性があります。
ハードウェアの可用性はどうですか?
ソフトウェアスタックの統合は正しい方向への一歩ではあるものの、中国のAIハードウェアの自立性に関しては、依然として大きな問題が残されている。中華人民共和国は依然として、AMDやNVIDIAに匹敵する量のハードウェアを国内生産できていない。中国で製造できるハードウェアは、米国で開発されたプロセッサに比べて何年も遅れているのだ。
中国のAIアクセラレーターの主要開発企業であるBiren、Huawei、Moore Threadsなどは、米国商務省のエンティティリストに掲載されています。つまり、これらの企業はTSMCの高度な製造能力を利用できません。そのため、これらの企業は中国に拠点を置くSMICでチップを製造せざるを得ませんが、SMICのプロセス技術はTSMCの技術に匹敵するものではありません。SMICは7nmクラスの製造プロセスでチップを製造できますが、HuaweiはAscend 910BおよびAscend 910Cプロセッサ用のシリコンの大部分をTSMCを欺いて入手する必要がありました。BirenやMoore Threadsなどの企業は、どのファウンドリーを利用しているのかを明らかにしていませんが、選択する余裕はありません。
もちろん、ファーウェイもSMICも現状維持を主張している。両社は中国の半導体産業の発展に取り組み、SMICが入手できない最先端設備に代わる現地製造ツールサプライチェーンの構築に取り組んでいる。その前に、SMICは6nmクラスのプロセス技術、さらには5nmクラスの生産ノードでチップの製造を開始すると予想されており、ファーウェイをはじめとする企業向けに高度なAIプロセッサを開発する可能性もある。しかし、大きな問題は、特にNVIDIAのハードウェアが中国でほとんど入手できない状況下で、AIのトレーニングと推論の需要を満たすだけの量産体制が整うかどうかだ。
中国の鶏と卵のジレンマ
HuaweiのCANN(および競合スタック)の成熟度がNvidiaのCUDAに遅れをとっている主な理由は、Huawei自身のプロジェクト以外ではAscendプロセッサの広範かつ安定したインストールベースが確立されていないためです。開発者は規模を重視する傾向があり、CUDAが主流となったのは、NvidiaのGPUが数百万個出荷され、広く入手可能になったためです。これにより、チューニング、ライブラリ、コミュニティサポートへの投資が正当化されました。一方、Huaweiをはじめとする中国の開発者は独自のソフトウェアスタックを保有しており、米国政府の制裁により、Ascend NPUやBiren GPUを数百万個出荷することができません。
一方、Huaweiをはじめとする企業がAscend NPUやMoore Threads GPUを市場に投入できたとしても、ソフトウェアスタックの弱さが開発者にとって魅力を失わせる要因となっています。DeepSeekがAscendでR2の学習を試みたことは好例です。パフォーマンスの不安定さ、相互接続の弱さ、そしてCANNの未熟さがプロジェクトを非現実的なものにし、学習にはNVIDIAのハードウェアへの回帰を余儀なくされたと報じられています。ハードウェアの供給量だけでは、この状況は変わりません。
新たなモデルチップ・エコシステム・イノベーション・アライアンスは、共通の中間レベル標準(モデルフォーマット、演算子定義、フレームワークAPIなど)を設定することで、この問題の解決を目指しています。この構想は、開発者がPyTorchまたはTensorFlowで一度コードを記述すれば、Huawei、Biren、その他のベンダーの中国製AIアクセラレータで実行できるようになるというものです。しかし、これらの標準が実際に確立されるまでは、分断化によって各企業が同時に複数の問題に直面することになります。ハードウェアとソフトウェアは、飽和状態の市場において、複数の戦線で競争に直面しています。
その結果、中国で開発された AI アクセラレータの量の少なさ、共通標準の欠如、そしてさまざまな面での競争により、中国企業が Nvidia のすでに支配的なエコシステムに挑戦することは非常に困難になるでしょう。
Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。