26
Nvidiaの最大の中国競合企業が、最先端の新しいAI GPU、Moore Threads S4000 AI GPUと、新しいAI GPU 1,000個を使用したIntelligent Computing Centerサーバークラスターを発表した。
Moore Threads MTT S4000 グラフィック カード。
(画像提供:ムーア・スレッド)

中国のGPUメーカー、ムーア・スレッド社は、AIおよびデータセンターコンピューティングワークロード向けの最新グラフィックカード「MTT S4000」を発表しました。同社の最新フラッグシップモデルは、1,000基のS4000 GPUを搭載したクラスターを備えたデータセンター「KUAEインテリジェント・コンピューティング・センター」に導入されます。ムーア・スレッド社は、KUAEのハードウェアおよびソフトウェア・エコシステムの立ち上げに向けて、レノボを含む多くの中国企業と提携しています。

スワイプして水平にスクロールします

MTT S4000の仕様
グラフィックプロセッサMTT S4000MTT S3000MTT S2000
建築第3世代MUSA初代MUSA初代MUSA
SPU(GPUコア)?40964096
コアクロック?1.8~1.9GHz約1.3GHz
TFLOPs (FP32)2515.210.6
TOPs (INT8)20057.642.4
メモリ容量48GB GDDR632GB32GB
メモリバス幅384ビット256ビット256ビット
メモリ帯域幅768 GB/秒448 GB/秒未知
TDP?250W150W

Moore Threads社はS4000 GPUについて全てを明らかにしていませんが、S2000およびS3000と比べて大幅な改良が施されていることは間違いありません。S2000と比較して、S4000はFP32パフォーマンスが2倍以上、INT8パフォーマンスが5倍、VRAM容量が50%増加し、メモリ帯域幅も大幅に向上しています。また、この新しいフラッグシップモデルは第2世代のMUSA(Moore Threads Unified System Architecture)アーキテクチャを採用していますが、S2000/S3000は第1世代のアーキテクチャを採用しています。

(免責事項: Moore Threads は S2000 と S3000 の両方を「第 1 世代 MUSA」としてリストしていますが、S2000 と S80 は「第 2 世代 Chunxiao アーキテクチャ」を使用していると述べている人もいます。Moore Threads は S4000 を具体的に「第 3 世代」と呼んでいますが、まだ製品ページはありません。)

Nvidiaのモデルと比較すると、S4000は2018年に発売されたTuringベースのTeslaサーバーGPUよりも優れていますが、2020年と2022年にそれぞれ発売されたAmpereとAda Lovelaceには依然として及ばない。S4000は特に処理能力が不足しているものの、メモリ容量と帯域幅は依然として十分に大きく、Moore Threadsが主力製品として想定しているAIや大規模言語モデル(LLM)のワークロードには役立つ可能性がある。

S4000は、GPU間のデータ転送能力も非常に優れており、カード間で240GB/秒のデータリンクとRDMAをサポートしています。これはHopperのNVLinkの900GB/秒の帯域幅とは大きく異なりますが、S4000のGPU性能ははるかに低いため、これほどの帯域幅は過剰と言えるでしょう。

ムーア スレッド KUAE キロカード クラスター

(画像提供:ムーア・スレッド)

ムーアスレッド社はS4000に加え、KUAEインテリジェント・コンピューティング・センターも発表しました。同社はこれを「ソフトウェアとハ​​ードウェアを統合したフルスタック・ソリューション」と表現し、フル機能のS4000 GPUを中核としています。KUAEクラスタはMCCX D800 GPUサーバーを使用しており、各サーバーには8枚のS4000カードが搭載されています。ムーアスレッド社によると、KUAE Kilocard Clusterには1,000枚のGPUが搭載されており、1つのクラスターあたり合計125台のMCCX D800サーバーが稼働することになります。

ソフトウェア面では、ムーア・スレッド社はKUAEがGPTのような主流の大規模言語モデルやDeepSpeedのようなフレームワークをサポートしていると主張しています。同社のMUSIFYツールは、S4000をNVIDIA GPUベースのCUDAソフトウェアエコシステムで動作させることを可能にし、ムーア・スレッド社と中国のソフトウェア業界が車輪の再発明に煩わされることなく動作するとしています。

KUAEクラスターは、AIモデルを約1ヶ月でトレーニングできるようですが、これはいくつかの条件に大きく依存します。例えば、Moore Threadsによると、700億のパラメータを持つAquila2モデルのトレーニングには33日かかりますが、パラメータを1300億に増やすとトレーニング時間は56日に延長されます。

このようなハードウェアとソフトウェアのエコシステムをサポートすることは、どの企業にとっても困難な課題ですが、ムーアスレッド社が単独で取り組むことはほぼ不可能でしょう。特に多くの従業員を解雇せざるを得なくなった今、それが同社が他の中国企業数社と提携し、インテリジェントコンピューティング・ラージモデル・エコロジカル・アライアンスを設立した理由でしょう。この中国国内のGPUメーカーは、国際的にも事業を展開するレノボからの支援を受けています。

ムーアスレッドが近い将来、NVIDIA、AMD、Intelといった企業と互角に渡り合うことはまずないだろうが、中国にとって必ずしもそうである必要はない。米国の制裁措置により、高性能GPUの中国への輸出が阻止されている。これは、中国国内の半導体産業に十分な存在意義を与えているだけでなく、ムーアスレッドやその競合企業であるBirenのような企業の競争を弱めている。NVIDIAの中国向けカードと比較すると、S4000とKUAEは有望かもしれない。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

マシュー・コナッツァーは、Tom's Hardware USのフリーランスライターです。CPU、GPU、SSD、そしてコンピューター全般に関する記事を執筆しています。