36
中国の秘密兵器 Sunway Pro CPU は、前世代機に比べてパフォーマンスが 4 倍になり、スーパーコンピューターが…
天河
(画像提供:Top500.org/News.cn)

今年初め、無錫の国家スーパーコンピューティングセンター(米国のブラックリストに掲載されている機関)は、中国設計の強化版Sunway SW26010 Proプロセッサ(384コア)を搭載した新型スーパーコンピュータを稼働させました。Chips and Cheeseによると、SunwayのSW26010 Pro CPUは、Pro版ではない前世代のSW26010よりもコア数が多いだけでなく、マイクロアーキテクチャとシステムアーキテクチャの改良により、FP64演算スループットが4倍以上に向上しています。しかし、このメニーコアCPUは理論上は優れているものの、パフォーマンス上のボトルネックがいくつか存在します。

メニーコアCPUのSunway SW26010 Proと、それを搭載したスーパーコンピュータの詳細は、2021年に初めて明らかになりました。そして今回、同社はSC23において、実際のプロセッサを展示し、そのアーキテクチャと設計に関する詳細な情報を公開しました。これらのプロセッサは、パフォーマンスの大幅な向上を示しています。この新しいCPUにより、中国は国産プロセッサのみで構成された高性能スーパーコンピュータを構築できるようになると期待されています。Sunway SW26010 Proは、1基あたり最大13.8 TFLOPSという驚異的なFP64スループットを誇ります。ちなみに、AMDの96コアプロセッサEPYC 9654のピークFP64性能は約5.4 TFLOPSです。 

スワイプして水平にスクロールします

CPUコンピューティングコアFP64FP32
SW26010-プロ38413.8 TFLOPS27.6 TFLOPS
SW260102562.9 TFLOPS5.8 TFLOPS
A64FX483 TFLOPS6テラフロップス
MI250X(シングルGCD)11023.9 TFLOPS23.9 TFLOPS | 47.8 TFLOPS(パック)

SW26010 Proは、オリジナルのSW26010の進化版であり、前世代機の基本アーキテクチャを継承しつつ、いくつかの重要な機能強化が行われています。新しいSW26010 Proプロセッサは、全く新しい独自の64ビットRISCアーキテクチャをベースとし、6つのコアグループ(CG)とプロトコル処理ユニット(PPU)を搭載しています。各CGには、512ビットベクターエンジン、データ用256KBの高速ローカルストア(スクラッチパッドキャッシュ)、命令用16KBを備えた64個の2ワイド演算処理要素(CPE)、ベクターエンジン、32KB/32KBのL1命令/データキャッシュ、256KBのL2キャッシュを備えたスーパースカラーアウトオブオーダーコアである1個の管理処理要素(MPE)、および128ビットDDR4-3200メモリインターフェイスが統合されています。 

CPU

(画像提供:チップス&チーズ)

MPEとCPEは、ディレクトリベースのプロトコルを使用してコヒーレントなデータ共有を実現し、コア間のデータ移動を削減するとともに、異なるコア間のきめ細かなインタラクションをサポートします。これは、不規則なデータ共有アクセスを伴うアプリケーションにとって特に重要です。6つのCPEを搭載したSW26010プロセッサは、合計384個のCPEと6個のMPE、つまり合計390個のコアと1個のPPUを備えています。 

SW26010 Proは、前モデルよりも高速に動作するだけでなく(CPEは2.25GHz、MPEは前モデルの1.45GHzではなく2.10GHzで動作します)、SW26010 Pro CPUの新しい64ビットRISCマイクロアーキテクチャは完全に改良され、プロセッサのFP64データ処理スループットが4倍になりました。新しいコアにさらに多くのメモリ帯域幅を提供するために、設計者はCPUをDDR3からDDR4メモリコントローラに移行し、メモリ帯域幅と容量が大幅に増加しました。各CGには現在16GBのDDR4メモリが搭載されており、SW26010の各クラスタに搭載されている8GBのDDR3メモリの2倍になっています。この機能強化により、1つのCPUでサポートされるメモリの合計容量が、SW26010の32GBからSW26010-Proでは96GBに増加しています。

CPU

(画像提供:チップス&チーズ)

これらの進歩にもかかわらず、SW26010とSW26010-Proは、キャッシュとメモリサブシステムに共通の制限を抱えています。SW26010-Proは、スクラッチパッド容量をSW26010の64KBから256KBに増やすことでキャッシュ問題に対処しようとしています。しかし、適切なL2メモリが不足している状況で、CPEあたり256KBのスクラッチパッドキャッシュでは不十分であり、両プロセッサとも依然として大きなパフォーマンスボトルネックを抱えています。一方、デュアルチャネルDDR4-3200(51.2GB/s)のメモリサブシステムは、512ビットベクターFPUを搭載し、最大16 FP64 FLOPS/サイクルの性能を発揮する64コアには、かろうじて足りる程度です。

結論として、SW26010 Proは、特にメモリ容量、演算密度、そして全体的な性能において、SW26010から大きく進歩したと言えるでしょう。これらの強化は、中国のスーパーコンピューティングにおける実力の向上を実証しています。しかしながら、この新型プロセッサには2つの大きな欠点があります。1つはキャッシュサブシステムの弱さ(ソフトウェアによる最適化で軽減できますが、時間とコストの面でコストがかかります)と、もう1つはメモリ帯域幅の不足です。そのため、複雑な現実世界の問題を 真に  エクサフロップスレベルの性能で解決するシステムの構築に使用できるかどうかは、まだ不透明です。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。