99
ファーウェイは、UB-Meshデータセンター規模の相互接続を近々オープンソース化し、技術的な側面の詳細を公表する予定。PCIeからTCP/IPまですべてを置き換えるよう設計された、すべてを統括する1つの相互接続。
ファーウェイ
(画像提供:Huawei)

ファーウェイはHot Chips 2025のブースで、AIデータセンター全体の相互接続(内部ノードと外部ノードの両方)を単一プロトコルで統合するUB-Mesh技術を発表しました。同社はまた、来月のイベントでこのプロトコルを全ユーザーに無料で公開することを発表すると発表しました。この技術は、PCIe、CXL、NVLink、TCP/IPなどのプロトコルを単一のプロトコルに置き換えることで、ギガワットクラスのデータセンターにおけるレイテンシの削減、コスト抑制、信頼性の向上を目指しています。この取り組みを推進するため、ファーウェイは仕様をオープンソース化する予定です。しかし、この技術は普及するのでしょうか?

「来月、カンファレンスを開催します。そこでUB-Meshプロトコルを公開し、無料ライセンスのように誰でも利用できるようにすることを発表する予定です」と、ファーウェイのプロセッサ部門であるHiSiliconのチーフサイエンティスト、ヘン・リャオ氏は述べています。「これは非常に新しい技術であり、様々な陣営が競合する標準化の取り組みを行っています。[…] 実際のシステムの導入がどれだけうまくいき、パートナーや顧客からの需要がどの程度あるかによって、何らかの標準規格化について議論できる可能性があります。」

クラスターからスーパーノードへ

トレーニングと推論のためのAIデータセンターは、本質的に並列化された1つの巨大なプロセッサのように動作するはずですが、実際には個別のラック、サーバー、CPU、GPU、メモリ、SSD、NIC、スイッチ、その他のコンポーネントで構成されており、これらはUPI、PCIe、CXL、RoCE、NVLink、UALink、TCP/IP、そして今後登場するUltra Ethernetなど、異なるバスとプロトコルを使用して相互に接続されています。プロトコル変換には電力が必要となり、レイテンシとコストが増加し、潜在的な障害点も発生します。これらはすべて、数百万個のプロセッサを搭載したギガワットクラスのデータセンターでは壊滅的な規模拡張を引き起こす要因となります。

ファーウェイ

(画像提供:Huawei)

Huaweiは、多数のリンクとプロトコルを扱う代わりに、UB-Meshと呼ばれる単一の統合フレームワークを提案しています。これにより、任意のポートが変換なしで他のポートと通信できるようになります。このシンプルさにより、変換遅延が削減され、設計が合理化されるだけでなく、必要に応じてイーサネット経由でも動作できる余地が確保されます。つまり、データセンター全体がUB-Meshで接続されたコヒーレントなスーパーノードに変わるのです。

画像

1

2

ファーウェイ
(画像提供:Huawei)

Huawei は、SuperNode を、最大 1,000,000 個のプロセッサ (CPU、GPU、NPU)、プールされたメモリ、SSD、NIC、スイッチを 1 つのシステムに統合し、チップあたりの帯域幅が 100 Gbps から 10 Tbps (1.25 TB/秒、PCIe 8.0 が提供できる帯域幅を超える) に向上し、ホップ レイテンシがマイクロ秒から約 150 ns に短縮され、全体的な設計が非同期 DMA から同期ロード/ストア セマンティクスに移行しているデータ センター規模の AI アーキテクチャであると定義しています。

この構造は、レイテンシを低減し、すべての高速 SERDES 接続を柔軟に再利用できるようにし、さらに下位互換性のためにイーサネット経由の操作をサポートするように設計されています。

新たな技術的課題

しかし、ファーウェイは、このコンセプトをデータセンター全体に拡張すると、新たな課題が生じることを認めています。特に、ラック内で接続する銅線からプラグ接続可能な光リンクへの移行が課題となります。光ファイバーは長距離接続には不可欠ですが、電気接続に比べてエラー率がはるかに高くなります。これに対処するため、ファーウェイはリンクレベルのリトライメカニズム、光モジュール内のバックアップレーン、そしてコントローラを複数のモジュールに接続するクロスオーバー設計を提案しています。これらの対策は、個々のリンクまたはモジュールに障害が発生した場合でも継続的な運用を保証するように設計されていますが、当然ながらコストは増加します。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ファーウェイ

(画像提供:Huawei)

UB-Meshのネットワークトポロジーはハイブリッドです。最上位レベルでは、CLOS構造によってホールを横切るラックが連結されます。その下には、多次元メッシュが各ラック内の数十個のノードを接続します。このハイブリッドモデルは、システムが数万、数十万ノードに拡張された際に、従来の設計に見られるようなコストの暴走を回避することを目的としています。

ファーウェイ

(画像提供:Huawei)

また、信頼性は個々のリンクを超えて実現される必要があります。ファーウェイは、別のラックが故障した場合にホットスペアラックが自動的に引き継ぐシステムモデルを概説しました。その後、故障したラックは修理され、再びローテーションで接続されることで可用性が維持されます。ファーウェイによると、この設計により平均故障間隔が桁違いに長くなり、これは100万チップ規模のシステムに必要な改善レベルです。

コストの削減

コストの観点から見ると、Huaweiのデータに基づくと、その差は歴然としています。従来のインターコネクトは、ノード数の増加に伴ってコストが直線的に増加する傾向があり、最終的にはAIアクセラレータ(NvidiaのH100やB200など)自体の価格を上回る可能性があります。一方、UB-Meshは準線形に拡張され、コストが比例的に増加することなく容量を拡張します。Huaweiは、CLOSと2Dメッシュ要素を組み合わせた実用的な8,192ノードシステムを実現可能性の証拠として示しました。

ファーウェイ

(画像提供:Huawei)

戦略的影響

画像

1

13

ファーウェイ
(画像提供:Huawei)

UB-MeshとSuperNodeにより、Huaweiは中国国内外の大規模AIクラスターをサポートするために設計されたシステムレベルのアーキテクチャを提供しています。これらの技術が普及すれば、Huaweiは次世代データセンターにおいて、PCIe、NVLink、UALink、さらにはTCP/IPといった欧米規格への依存を軽減(あるいは完全に排除)するでしょう。AMD、Intel、Nvidiaといった企業とCPU、GPU、あるいはラックスケールのソリューションで競合するのではなく、Huaweiはデータセンター規模のソリューションを構築しようとしています。

しかし、問題は、この取り組みがファーウェイ以外の企業に採用されるかどうかです。ファーウェイの顧客がデータセンターインフラを単一のサプライヤーから調達することに関心を持つかどうかはまだ分かりません。そのため、ファーウェイはUB-Meshリンクプロトコルを世界に公開し、評価の機会を提供しています。ファーウェイが自社の導入で成功し、サードパーティからの関心が高まれば、UB-Meshを標準化し、ひいてはスーパーノードアーキテクチャ自体を標準化できる可能性があります。

しかし、業界が関心を持つかどうかはまだ分かりません。NVIDIAは、ラック内では独自のNVLink接続を、データセンター全体ではイーサネットまたはInfiniBandを使用しています。AMD、Broadcom、Intelなどの企業は、ポッド間通信にはUALink、データセンター全体の接続にはUltra Ethernetを推進しています。どちらの技術も標準化されており、幅広い企業によってサポートされているため、柔軟性とコスト削減を実現しています。

Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。