
中国は、科学、経済、そして軍事目的とされるプロジェクトの発展を支援するため、約20年にわたり最先端のスーパーコンピュータを構築してきました。当初は米国製のハードウェアを使用していましたが、主要な経済ライバルである米国との緊張が高まったため、中国は独自の高性能コンピューティング(HPC)ハードウェアを開発せざるを得なくなりました。エクサスケール・スーパーコンピュータの時代が迫る中、中国の科学者たちは、そのようなシステム向けに様々なアーキテクチャを提案しています。
エクサスケール スーパーコンピュータの提案の 1 つには、Sunway HPC アーキテクチャと Shenwei (SW) の多数コア ハイブリッド CPU アーキテクチャのスケーリングが含まれていると、NextPlatform は国立並列コンピュータ工学技術研究センター (NRCPC) の文書を引用して報告しています。
スーパーコンピューティングのトレンド:コア数の増加
NRCPC は、エクサスケール時代に向けた準備の一環として、近年のスーパーコンピュータの一般的な動向に関する調査を実施しました。
同組織は、ムーアの法則とデナードのスケーリングの法則の両方の減速により、電力消費を増やさずにスーパーコンピュータのパフォーマンスを向上させ、その結果、システムアーキテクチャ全体の複雑さを飛躍的に増加させることが非常に困難になっていることを発見しました。
これらの調査結果に基づくと、2008年から2019年にかけての最先端スーパーコンピュータの性能向上は、主に計算コア数が44倍に増加したことと、コアあたりの計算能力が3倍に増加したことによるものであることが分かります。そのため、NRCPCは、全く新しいものを開発するのではなく、既存のSunwayスーパーコンピュータアーキテクチャとShenwei CPU設計を拡張することが合理的であると考えています。特に、数千万コア規模のスーパーコンピュータの開発が検討されています。
Shenwei SW26010アーキテクチャの探究
2016年に稼働を開始した最新のSunway TaihuLightスーパーコンピュータは、ハイブリッドアーキテクチャを採用した自社開発のメニーコアSunway SW26010プロセッサを40,960基搭載しています。このシステムは、Linpack性能(Rmax)93,014.6 TFLOPS、(Rpeak)125,436 TFLOPSを実現します。現在提案されているエクサスケール計画には、SW26010 CPUとTaihuLightシステムのスケーリングが含まれているため、CPUアーキテクチャの詳細について理解しておくことは有益です。
SW26010プロセッサは、自社開発の64ビットRISCアーキテクチャをベースとし、4つのクラスタ、またはコアグループ(CG)とプロトコル処理ユニット(PPU)を備えています。各クラスタには、256ビットベクトルエンジン、32KB/32KBのL1命令/データキャッシュ、256KBのL2キャッシュを備えたスーパースカラ・アウトオブオーダー・コアである管理処理要素(MPE)が1つあります。また、同じ256ビットベクトルエンジン、64KBのデータ用高速ローカルストア、16KBの命令用ローカルストアを備えた64個の計算処理要素(CPE)も統合されています。CPEは8x8アレイとして構成され、メッシュネットワークを使用して相互接続されています。MPEとCPEは、ディレクトリベースのプロトコルによるコヒーレンス共有をサポートしており、コア間のデータ移動を削減し、異なるコア間のきめ細かなインタラクションをサポートします。これは、不規則なデータ共有アクセスを行うアプリケーションにとって特に重要です。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
各CGは、独自のアドレス空間を持つDDR3メモリコントローラを搭載し、9つのメモリモジュールを使用して8GBのメモリをサポートし、独自のECC実装を実現します。CGはリングバスのようなネットワークオンチップ(NoC)リンクで相互接続され、プロセッサ自体はシステム相互接続(SI)バスでシステムの他の部分に接続されます。Sunway TaihuLightスーパーコンピュータで使用されているSW26010 CPUは、1.45GHzで動作しました。NRCPCはSW26010の製造に使用したプロセス技術を明らかにしていませんが、TaihuLightが2016年半ばに初めてトップ500リストに登場したことから、そのCPUはTSMCの28nm製造プロセスで製造されたと推測するのが妥当です。
このようなプロセッサは、Sunway Taihulight がフルロードされ、100% の効率であると仮定すると、約 3.168 TFLOPS (Rpeak) のパフォーマンスと約 136 GB/s のメモリ帯域幅を備えています。
SW26010は、基本的に同じマイクロアーキテクチャを共有しながらも異なる機能を備えた260個のコアを備えたハイブリッドプロセッサです。SW26010は、256個のCPEコアによるスレッドレベルの並列処理を利用できるシングルチップであるため、シリアル(MPE)コアとパラレル(CPE)コア間で大量のメモリトランザクションを行う必要がなく、GPUやFPGAなどの計算アクセラレータを搭載したCPUよりも効率的であると考えられています。一方、現代のx86ベースのスーパーコンピュータは、4つ以上の「ビッグ」コアを搭載したCPUを使用しており、これによりかなりの柔軟性が得られます。
NRCPCのエクサスケールへのアプローチ:すべてをスケールする
NRCPC の観点から見ると、Sunway システムと Shenwei CPU アーキテクチャの両方を拡張して、約 1 ExaFLOPS のパフォーマンスを備えたスーパーコンピュータを構築することが可能です。
このようなシステムを構築するために、NRCPCはSW26010 CPUの強化とプロセッサ数の増加を提案しています。エクサスケールマシン向けの新しいShenwei CPUは、4つではなく8つのCGクラスターを搭載します。CGアーキテクチャはMPE 1つとCPE 64つのまま変わりません。一方、CPEは512ビットベクター命令をサポートします(MPEもサポートすると推定されますが、資料には明記されていません)。NRCPCの推定によると、このようなプロセッサは12 FP64 TFLOPSを超える性能を発揮します。また、エクサスケールスーパーコンピュータでは、システムあたりのCPU数も2倍以上の8万個以上に増加します。
NRCPCによると、次世代Shenwei CPUアーキテクチャをベースにしたエクサスケールSunwayスーパーコンピュータは、約1 FP64エクサFLOPS、2 FP32エクサFLOPS、そして4 FP16エクサFLOPSのピーク性能を提供するとのことです。同組織の推定によると、エクサスケールSunwayシステムの実世界性能は約700 PFLOPS(つまり、効率は約70%)となり、TaihuLightの7.5倍の速度となります。さらに、このスーパーコンピュータは、メモリ帯域幅が約7倍、ネットワーク帯域幅が約2倍に向上します。
太陽威太湖光スーパーコンピュータの消費電力は15,371キロワットです。対照的に、世界最高性能のマシンである富岳スーパーコンピュータの消費電力は29,899キロワットで、約2倍です。今年後半には約1.5エクサフロップスの性能を提供する最初のシステムになると予想されるフロンティアは、約30,000キロワットの消費電力になると予測されています。NRCPCの調査は、中国のエクサスケール・スーパーコンピュータに期待される性能についてある程度の見解を示していますが、この資料にはシステムの予想消費電力に関する情報が欠けています。
この論文では、CPUアーキテクチャの強化は相互接続とキャッシュに関する内部設計の大幅な変更につながり、消費電力の増加につながることを認めています。さらに、CPU数の増加だけでなく、CPU当たりの性能向上も活用するには、スーパーコンピュータ全体の再設計が必要になります。NRCPCは、今後の文書で他のスーパーコンピュータサブシステムの課題にも対処していくと述べています。
新しいプロセス技術が必要
エンジニアリングの観点からは、520コア(8MPE、512CPE)のハイブリッドCPUの構築は可能です。一方、コア数を倍増させ、512ビットのベクターユニットを搭載することで複雑性を高めると、内部相互接続速度が2倍になるため、トランジスタ数の大幅な増加は避けられません。
トランジスタ数を倍増させることは、決して不可能な課題ではありません。結局のところ、AMD、Intel、Nvidiaといった企業は、データセンターやスーパーコンピュータ向けの大型CPUやGPUの製造技術を熟知しています。しかし、これらの企業はいずれも最先端のプロセス技術と半導体製造設備を保有しています。一方、中国は自国の技術力をすべて自力で構築したいと考えているため、米国がNRCPCをエンティティリストに追加し、チップメーカーによる同社へのシリコン供給を禁止する可能性があることを認識した上で、TSMCやSamsung Foundryにハイブリッドスーパーコンピュータ向けCPUの製造を委託するかどうかは明らかではありません。
SW26010 の製造にどのプロセス技術が使用されているか、また NRCPC が 520 コア チップの製造にどのノードを使用する予定であるかが正確にわからないため、同組織のエクサスケール計画については推測と憶測しかできない。
現在、中国に拠点を置くSemiconductor Manufacturing International Corp.は、14nmノードと、低価格チップ向けのN+1ノードという2つのFinFET製造技術を保有しています。SW26010がTSMCの28nmプロセス技術を用いて製造されていると仮定すると、より複雑なCPUにSMICの14nmプロセスを使用することは理にかなっています。もちろん、SMICが14nmノード(これまではモバイルSoCなどの比較的小型のコンポーネントにのみ使用されていました)を用いて、かなり複雑なチップを実際に量産し、適切な周波数で適切な歩留まりを達成できるかどうかは、まだ不明です。SMICは米国商務省のエンティティリストに掲載されており、必要な化学物質やスペアパーツの入手がますます困難になっていることを念頭に置き、ファウンドリーは成熟したプロセス技術に再び焦点を当てているため、NRCPCのような「VIP」顧客向けにも、新しい14nm設計を製造する意向があるかどうかは不明です。
とはいえ、NRCPCが次世代スーパーコンピュータにリスクを負い、TSMCのサービスを利用せざるを得なくなる可能性もある。TSMCの7nmノードを利用することで、国立並列コンピュータ工学技術研究センター(NRCPC)はCPUのトランジスタ数を増やすだけでなく、消費電力を抑えながら動作周波数を向上させることも可能になるという。
まとめ
中国初のスーパーコンピュータの一つは、既存のSunwayスーパーコンピュータと、国立並列コンピュータ工学技術研究センター(NRCPC)が開発したShenweiハイブリッドCPUアーキテクチャを活用します。Linpackベンチマークで1 FP64エクサフロップスRpeakの性能を達成するため、NRCPCはプロセッサ内の実行ユニット数を増やし、512ビットベクトル命令のサポートを追加し、システムあたりのCPU数を倍増させます。
NRCPCが提案するエクサスケール・システムに搭載されるCPUは、520個のコア(高性能コア8個と簡素化されたコア512個)と、全く新しいメモリ・サブシステムを備える。不明なのは、新しいShenwei CPUが中国製になるかどうか、また、どのような製造プロセスで製造されるかである。一方で、中国に拠点を置くSMICは、14nmノードを使用してQualcommやその他のパートナー向けのSoCを製造することに成功しているが、その技術が高度に複雑なスーパーコンピュータ・プロセッサに十分なものかどうか、また、SMICが米国商務省のエンティティ・リストに掲載されているという事実を考えると、実際に使用できるかどうかは不明である。一方、TSMCはNRCPCに競争力のあるN7またはN6ノードの1つを提供できますが、この中国のスーパーコンピュータ専門企業が台湾企業のサービスを利用する意向があるかどうかは不明である。
中国のエンジニアはCPU、DRAM、NAND、その他のコンポーネントを含む最先端のスーパーコンピュータを開発できますが、提案されているNRCPCエクサスケールシステムの競争力は、CPU設計者が利用できる半導体プロセス技術に依存します。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。