5
ファーウェイの新しいAI CloudMatrixクラスターは、NVIDIAのGB200を力ずくで打ち負かし、4倍の電力を消費する
HuaweiのFusionModule800、画像は説明のみを目的としています
(画像提供:Huawei)

ファーウェイは、最先端のプロセス技術を使用して AI 用の高性能プロセッサを生産することができないため、AI で同等のパフォーマンスを達成するには、業界の競合他社よりも多くのプロセッサを搭載するという力ずくの手段に頼らざるを得ない。

これを実現するために、ファーウェイはデュアルチップレットHiSilicon Ascend 910Cプロセッサ、光インターコネクト、そして独自ソフトウェアを搭載したHuawei AI CloudMatrix 384ラックスケールソリューションを含む多面的な戦略を採用したと、SemiAnalysisは報じています。システム全体のワットあたりの性能はNVIDIAのGB200 NVL72と比較して2.3倍低いものの、中国企業は高度なAIモデルのトレーニングが可能です。

一目でわかる

従来の相互接続に銅線を使用するシステムとは異なり、CloudMatrixはラック内およびラック間の接続に完全に光ファイバーを採用しており、極めて高い通信帯域幅を実現します。CloudMatrix 384は、フォールトトレラント機能を備え、拡張性を重視して設計されたエンタープライズグレードのマシンです。

パフォーマンス面では、CloudMatrix 384は約300PFLOPSの高密度BF16コンピューティングを実現し、これはNVIDIAのGB200 NVL72システム(約180 BF16 PFLOP)の約2倍のスループットです。また、HBM2Eを使用しているにもかかわらず、総メモリ帯域幅は2.1倍、HBM容量は3.6倍以上です。さらに、光インターコネクトにより、スケールアップ帯域幅は2.1倍、スケールアウト帯域幅は5.3倍に向上しています。

ただし、これらのパフォーマンス上の利点にはトレードオフが伴います。システムの電力効率は、Nvidia と比較して、FLOP あたり 2.3 倍、メモリ帯域幅 1 TB/s あたり 1.8 倍、HBM メモリ 1 TB あたり 1.1 倍低くなります。

NvidiaのGB200 NVL72とHuaweiのCloudMatrix CM384の比較

スワイプして水平にスクロールします

行0 - セル0

GB200 NVL72

クラウドマトリックス CM384

違い

BF16 高密度 PFLOPS

180.0 PFLOPS

300.0 PFLOPS

1.7倍

HBM容量

13.8TB

49.2 TB

3.6倍

HBM帯域幅

576.0 TB/秒

1229.0 TB/秒

2.1倍

帯域幅の拡大

518400.0 Gb/s ユニディ

1075200.0 Gb/s ユニディ

2.1倍

ドメインサイズの拡大

72.0 GPU

384.0 GPU

5.3倍

帯域幅のスケールアウト

28800.0 Gb/s ユニディ

153600.0 Gb/s ユニディ

5.3倍

オールインシステムパワー

145kW

559kW

3.9倍

BF16 高密度 FLOP あたりの総電力

0.81 W/TFLOP

1.87 TFLOP

2.3倍

メモリ帯域幅あたりのオールインパワー

1 TB/秒あたり 251.7 W

1 TB/秒あたり 455.2 W

1.8倍

メモリ容量あたりのオールインパワー

10.5kW/TB

11.4 kW/TB

1.1倍

しかし、これは実際には問題ではありません。なぜなら、中国企業(Huaweiを含む)はそもそもNVIDIAのGB200 NVL72にアクセスできないからです。したがって、AIトレーニングで真に高いパフォーマンスを得たいのであれば、HuaweiのCloudMatrix 384への投資は惜しまないはずです。

結局のところ、中国本土の平均電力価格は2022年の90.70ドル/MWhから、2025年には一部地域で56ドル/MWhに低下しており、HuaweiのCM384のユーザーが電力コストで破産する可能性は低い。つまり、エネルギーは豊富だが高度なシリコンの供給が限られている中国では、HuaweiのAIへのアプローチはうまく機能しているようだ。

HiSilicon Ascend 910C:Huaweiがデュアルチップレットを採用

数か月前、HuaweiのHiSilicon Ascend 910Cプロセッサを初めて目にした時、それはSMIC製と思われるコンピュートチップレットのダイショットで、I/Oダイと接続するためのI/Oが1つだけ搭載されていました。そのため、1つのコンピュートチップレットを搭載したプロセッサだと勘違いしていましたが、それは間違いでした。

HiSilicon Ascend 910Cは、8基のHBM2Eメモリモジュールを搭載し、AMDのInstinct MI250XやNvidiaのB200に似たI/Oダイを持たないデュアルチップレットプロセッサのようです。このユニットは780 BF16 TFLOPSの性能を発揮します。これは、MI250Xの383 BF16 TFLOPS、B200の2.25~2.5 BF16 TFLOPSを大きく上回ります。

NvidiaのB200とHuaweiのAscend 910Cの比較

スワイプして水平にスクロールします

行0 - セル0

Nvidia B200(GB200)

ファーウェイ アセンド 910C

違い

BF16 高密度 TFLOPS

2500.0 TFLOPS

780.0 TFLOPS

0.3倍

HBM容量

192.0 GB

128.0 GB

0.7倍

HBM帯域幅

8.0 TB/秒

3.2 TB/秒

0.4倍

帯域幅の拡大

7200.0 Gb/s ユニディ

2800.0 Gb/s ユニディ

0.4倍

帯域幅のスケールアウト

400.0 Gb/s ユニディ

400.0 Gb/s ユニディ

1.0倍

HiSilicon Ascend 910Cは、大規模なトレーニングおよび推論ワークロード向けに中国で設計されました。このプロセッサは、有名企業の高度なEDAツールを使用して設計され、7nmクラスのプロセス技術を使用して製造可能です。SemiAnalysisによると、SMICはAscend 910C用のコンピューティングチップレットを製造できますが、Huaweiが使用しているAscend 910Cチップレットの大部分は、Sophgoなどのサードパーティ企業を介した回避策を使用してTSMCによって製造されており、Huaweiは米国の規制にもかかわらずウェハを入手できています。Huaweiは2023年から2025年にかけて、100万個以上のAscend 910Cプロセッサに十分なウェハを確保したと推定されています。しかし、SMICの能力が向上するにつれて、Huaweiはより多くの生産を中国国内のファウンドリーに委託することが可能になります。

Ascend 910CはHBM2Eメモリを搭載しており、その大部分は別の代理店であるCoAsia Electronicsを通じてSamsungから供給されています。CoAsiaはHBM2Eコンポーネントを設計サービス企業のFaraday Technologyに出荷し、Faraday TechnologyはSPILと協力して、低性能の16nmロジックダイとHBM2Eスタックを組み立てました。これらのアセンブリは、米国規制で定められた閾値を超えなかったため、技術的には米国の輸出規制に準拠していました。システムインパッケージ(SiP)ユニットは中国に出荷され、HBM2Eスタックははんだ付け解除されてHuaweiに送られ、HuaweiはそれをAscend 910C SiPに再実装しました。

パフォーマンス面では、Ascend 910C はチップ当たりの性能が Nvidia の最新の B200AI GPU に比べてかなり劣りますが、Huawei のシステム設計戦略ではシステム当たりのチップ数を増やすことでこれを補っています。

プロセッサの数が増えるとパフォーマンスも向上

CloudMatrix 384は、その名の通り、384基のAscend 910C AIプロセッサを搭載した高密度コンピューティングクラスターです。16ラック構成で、ラックあたり32基のAIアクセラレータを搭載しています。このレイアウトでは、12ラックにコンピューティングモジュールが収容され、さらに4ラックが通信スイッチング用に割り当てられています。NVIDIAのアーキテクチャと同様に、すべてのAscend 910Cはカスタムメッシュネットワークで相互接続されており、相互通信が可能です。

しかし、CM384の特徴は、ラック内およびラック間のすべての内部通信を光リンクのみで実現していることです。6,912個のリニアプラガブル光(LPO)トランシーバーを搭載し、それぞれ800Gbpsの定格速度を実現することで、低レイテンシかつ信号整合性の損失を最小限に抑えながら、5.5Pbps(687.5TB/s)を超える総内部帯域幅を実現します。このシステムは、スケールアップとスケールアウトの両方のトポロジをサポートしています。384個のプロセッサ内のフルメッシュによるスケールアップと、追加のクラスタ間接続によるスケールアウトにより、緊密なコンピューティング統合を維持しながら、より大規模なハイパースケール環境への導入を可能にします。

384個のプロセッサを搭載したHuaweiのCloudMatrix 384は、300PFLOPSの高密度BF16演算性能を実現し、これはNvidiaのGB200 NVL72と比較して166%高い性能です。しかし、CM384の全システム電力(ネットワークとストレージを含む)は約559kWであるのに対し、NvidiaのGB200 NVL72は145kWです。

その結果、NvidiaのソリューションはHuaweiのソリューションよりも2.3倍高い電力効率を実現しています。しかし、前述のように、Huaweiが適切なソフトウェアとサポートを備え、CloudMatrix 384を量産できれば、顧客がシステムの電力消費を気にする必要はなくなるでしょう。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。