米国政府による制裁措置を受けて、中国のスーパーコンピュータはハードウェアおよび高性能コンピューティング(HPC)コミュニティから近年大きな注目を集めています。10月には、少なくとも2台の中国製スーパーコンピュータがいわゆるエクサスケールの壁を突破しました。また、スーパーコンピューティング21(SC21)カンファレンスでは、中国製の新たなエクサスケール・スーパーコンピュータが開発中であるという報道もありました。しかし、これらのマシンには重大な問題があるようです。
3つのエクサスケールシステム
HPCの専門家であり、アジア技術情報プログラム(ATIP)の創設者でもあるDavid K. Kahaner氏は、SC21で中国の最新スーパーコンピュータについて講演しました。ありがたいことに、その講演の一部はKoji Uchikawa氏によってTwitter投稿(ComputerBase経由)で公開されました。彼は、Tianxiaが自社開発技術または市販のAMD、Intel、Nvidiaハードウェアをベースにした100~500PFLOPSのシステムを複数稼働させていることを明らかにしました。また、中国にはエクサスケールクラスのシステムが2つ存在し、開発中の別のシステムが遅延していることも改めて強調しました。
既報の通り、ATIPによると、中国で最高性能を誇るスーパーコンピュータは、中国広州の国家スーパーコンピュータセンターに設置されている天河3号システムです。このマシンは、従来のHPCワークロードをフルFP64精度で処理するために、Armv8ベースのPhytium 2000+(FTP)プロセッサを搭載しています。一方、AIなど、常にFP64精度を必要としない新興ワークロードには、Matrix 2000+(MTP)DSPアクセラレータを採用しています。ATIPによると、このシステムの性能は約1300PFLOPS(1.3EFLOPS)とされています。
中国で2番目に高性能なスーパーコンピュータは、国家並列コンピュータ工学技術研究センター(NRCPC)に設置されているSunway Oceanliteです。このスーパーコンピュータは、Sunway SW26010 CPUをベースとした独自のハイブリッド390コアSunwayプロセッサを搭載しています。ATIPは、このマシンの持続的な性能は約1050 PFLOPS(1.05 EFLOPS)と推定しています。
深圳の国家スーパーコンピューティングセンターも数年前にEFLOPS級のシステムを提案しました。このスーパーコンピュータは曙光(Sugon)が設計し、2022年に納入される予定でした。しかし、曙光のHygonプロセッサ部門は、米国政府の規制により、AMDの技術(Dhyanaプロセッサ用のZen CPUマイクロアーキテクチャやアクセラレータ用のAMDコンピュートGPUなど)を利用できなくなりました。そのため、同社がどのようにシステムを納入する予定なのかは不明です。ATIPの専門家は、NSCCと曙光がスーパーコンピュータを導入するには、新たなエクサスケール対応のハードウェアプラットフォームを見つける必要があると考えています。一方、ここで重要なメッセージは、中国が明らかに新たな高性能スーパーコンピュータを求めているということです。
すべては精度次第
Top500.orgなどのスーパーコンピューティングの専門家は、スーパーコンピュータの計算性能を、LINPACKベンチマークを用いて、1秒あたりの倍精度(64ビット)浮動小数点演算回数(FLOPS)、つまりFP64 FLOPSで測定していることを指摘しておく必要があります。プロセッサは精度の低いFLOPSでも高速に実行できますが、HPC性能の一般的な基準は、LINPACKで達成されるFP64 FLOPSです。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
先月、中国の2つのエクサスケールシステムについて報じた際、NextPlatformが性能評価した通り、両システムともLINPACKベンチマークを用いてテストされた(つまり、結果は定義上FP64 FLOPS単位である)とお伝えしました。どちらのスーパーコンピューティングサイトもTop500.orgに性能データを提出していませんが、一部の観測者は、両サイトが米国政府による制裁からサプライヤーを守りたかったのではないかと推測しています。
しかし、中国のスーパーコンピュータ専門家たちが、著名なスーパーコンピュータ性能評価サイトに結果を提出することに消極的だったり、慎重だったりする一方で、NRCPCの研究者たちは、サンウェイ・オーシャンライト・マシンの結果を、スーパーコンピュータに関するもう1つの主要な賞であるゴードン・ベル賞に提出したと、NextPlatformは報じている。ゴードン・ベル賞を獲得するには、システムは53量子ビットのSycamore回路(数年前に導入されたGoogleの量子アーキテクチャ)をシミュレートする必要があるが、サンウェイ・オーシャンライトはそれを304秒でこなした。一方、オークリッジ国立研究所(ORNL)のチームは、Summitスーパーコンピュータ(200PFLOPSのマシン)がSycamoreをシミュレートするには約1万年かかると推定した。対照的に、53量子ビットのSycamoreマシンは、このタスクを200秒でこなした。
結局のところ、NRCPC のエンジニアたちは、驚異的な結果を得るためにシミュレーションの精度を下げましたが、これは PC ベンチマークの世界では不正行為と呼ばれています。
「ゴードン・ベル賞を受賞した研究において、中国の研究者たちは、シミュレーションに必要なアルゴリズム、並列化、そしてアーキテクチャを網羅する体系的な設計プロセスを導入しました」と、ORNLの開発者であるドミトリー・リアク氏は NextPlatformに語った。「中国のチームは、新型のサンウェイ・スーパーコンピュータを用いて、10x10x(1+40+1)のランダム量子回路を効果的にシミュレートしました(これは、RQCの古典的シミュレーションにおける新たなマイルストーンです)。彼らのシミュレーションは、4190万個以上のサンウェイ・コアを用いて、単精度で1.2 EFLOPS(1京回/秒の浮動小数点演算)、混合精度で4.4 EFLOPSの性能を達成しました。」
Sycamoreシミュレーションの不正操作は確かに嘆かわしいことですが、Sunway Oceanliteシステムがこの特定のアルゴリズムで1.2 FP32 EFLOPSの性能を発揮できることが明らかになりました。当然のことながら、LINPACKで得られたとされる結果とSycamoreシミュレーションで得られた結果を比較することはできません。しかしながら、あるベンチマークで1.05 FP64 EFLOPSを達成したとされるシステムが、別のベンチマークでは1.2 FP32 EFLOPSしか達成できなかったのは、なぜでしょうか。
このようなパフォーマンス数値の不一致により、Oceanlite および Tianhe-3 スーパーコンピューターの初期の LINPACK パフォーマンス数値が正しかったかどうか疑問が生じます。
まとめ
中国企業はペタスケールシステム向けのHPCハードウェアを設計できるものの、許容できる消費電力でエクサスケールマシンを製造できるとは思えない。しかし、中国は明らかに自国のスーパーコンピューティングの実力を誇示したいと考えており、だからこそNRCPCは量子シミュレーションベンチマークの結果を不正操作したとされる行為をためらわなかったのだ。
現時点では、中国のプロセッサやアクセラレータは、米国で設計された競合他社の製品ほど高速ではないかもしれません。しかし、中国が量産に成功すれば、100~500 FP64 PFLOPSのマシンをさらに製造し、科学技術の向上を図ることができます。さらに、エクサスケール級の性能がどのような電力消費量でも必要な場合は、既存の設計をスケールアウトすることで、その性能を実現することも可能です。一方、問題は、SunwayとPhytiumの両社のCPU開発企業が米国のブラックリストに載っていることです。そのため、両社にとってプロセッサの開発・製造は非常に困難になっています。
提案された 3 つのエクサスケール設計のうち、1 FP64 EFLOPS のパフォーマンスを達成できたもの (キャンセルせざるを得なかったもの) が、AMD Zen ベースの Hygon CPU と AMD Instinct コンピューティング GPU の組み合わせに基づくものだったというのは皮肉なことです。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。