65
研究者が実験的なRISC-Vスーパーコンピュータのベンチマークを実施

ボローニャ大学とCinecaの研究者グループは、8ノード32コアのRISC-Vスーパーコンピュータクラスターの実験的な検証を行いました。このデモンストレーションでは、SiFive社のFreedom U740システムオンチップを多数搭載した場合でも、比較的低消費電力でスーパーコンピュータアプリケーションを実行できることが示されました。さらに、このクラスターは良好に動作し、ベースラインの高性能コンピューティングスタックをサポートしました。

RISC-Vの必要性

「Monte Cimone は強力な浮動小数点パフォーマンスの実現を目的としたものではなく、'パイプの準備' と、RISC-V ハードウェア上で相互接続、ストレージ、電力監視インフラストラクチャを含む HPC 生産スタックを提供できるマルチノード RISC-V クラスターの統合に関する課題を調査する目的で構築されました」とプロジェクトの説明には記載されています (NextPlatform 経由)。

研究チームは実験のために、イタリアのHPC企業E4社製の1Uフォームファクターに4枚のデュアルボードブレードを搭載した既製のMonte Cimoneクラスタを使用しました(E4社のMonte Cimoneクラスタは6枚のブレードで構成されている点に留意してください)。Monte Cimoneは「HPC関連のソフトウェアスタックとHPCアプリケーションをRISC-Vアーキテクチャに移植およびチューニングするための」プラットフォームであるため、この選択は十分に正当化されました。

クラスター

Monte Cimone 1Uマシンは、SiFiveのHiFive Unmatched開発用マザーボード2枚を搭載しています。SiFiveのヘテロジニアス・マルチコアFreedom U740 SoCは、最大1.4GHzで動作する4つのU74コアと、同社独自のMix+Matchテクノロジーを採用した1つのS7コア、そして2MBのL2キャッシュを搭載しています。さらに、各プラットフォームは16GBのDDR4-1866メモリと1TBのNVMe SSDを搭載しています。

E4

(画像提供:E4)

各ノードにはMellanox ConnectX-4 FDR 40Gbpsホストチャネルアダプタ(HCA)カードも搭載されていましたが、Linuxカーネルがデバイスドライバを認識し、Mellanox OFEDスタックを管理するカーネルモジュールをマウントできたにもかかわらず、何らかの理由でRDMAが機能しませんでした。そのため、6ノードのうち2ノードには、利用可能なノード間帯域幅を最大化し、RDMAの不足を補うために、56Gbpsのスループットを持つInfiniband HCAカードが搭載されました。

E4

(画像提供:E4)

実験の重要な部分の一つは、Sunスーパーコンピューティングのワークロードに不可欠なHPCサービスの移植でした。チームは、NFS、LDAP、SLURMジョブスケジューラをRISC-Vに移植するのは比較的簡単だったと報告しました。その後、データサンプリング専用のExaMonプラグイン、トランスポート層管理用のブローカー、そしてストレージ用のデータベースをインストールしました。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

結果

ソフトウェア移植用に設計された低消費電力クラスタを実際のHPCワークロードに使用するのは合理的ではないため、チームはHPLおよびStreamベンチマークを実行し、GFLOPS性能とメモリ帯域幅を測定しました。しかし、結果はまちまちでした。

大学àディ・ボローニャ

(画像クレジット: ボローニャ大学)

SiFiveのU74コアの理論上のピーク性能は1GFLOPSであるため、Freedom U740 SoC 1台あたりの理論上のピーク性能は4GFLOPSとなるはずです。残念ながら、各ノードがHPLで持続的に達成できたのは1.86GFLOPSにとどまりました。つまり、完全な線形スケーリングを想定すると、8ノードクラスタのピークコンピューティング能力は14.88GFLOPS程度になるはずです。クラスタ全体の持続的なピーク性能は12.65GFLOPSに達し、これは外挿された達成可能ピークの85%に相当します。一方、SoCのスケーリングが比較的低いため、12.65GFLOPSはマシン全体の理論上のピーク性能の39.5%に相当します。U740モデルのスケーリングの低さを考慮に入れなければ、実験的にはそれほど悪くないかもしれません。

大学àディ・ボローニャ

(画像クレジット: ボローニャ大学)

メモリ帯域幅に関しては、1つのDDR4-1866モジュールを使用する場合、各ノードは約14.928GB/秒の帯域幅を実現するはずです。しかし実際には、7760MB/秒を超えることはなく、これは良い結果とは言えません。実際のベンチマーク結果(アップストリーム、未修正ストリーム)はさらに物足りず、4スレッドワークロードで利用可能なピーク帯域幅の15.5%以下の帯域幅しか達成できず、これは他のクラスターの結果を大きく下回っています。これらの結果は、Freedom U740のメモリサブシステムが平凡であることを示していますが、一方で、ソフトウェアの最適化によって改善できる可能性も示唆しています。

大学àディ・ボローニャ

(画像クレジット: ボローニャ大学)

消費電力に関して言えば、Monte Cimoneクラスタは謳い文句通り、低い消費電力を実現しています。例えば、SiFive Freedom U740 1台の場合、CPU負荷の高いHPLワークロードではピーク時に5.935Wに達するのに対し、アイドル時には約4.81Wしか消費しません。

まとめ

研究者が使用したMonte Cimoneクラスタは、HPCソフトウェアスタックと適切なテストアプリケーションを完璧に実行できる性能を備えており、これは既に優れた性能です。さらに、SiFiveのHiFive UnmatchedボードとE4のシステムはソフトウェア移植に特化しているため、NFS、LDAP、SLURM、ExaMonなどのプログラムがスムーズに動作したのは嬉しい驚きでした。一方、RDMAサポートがないのは残念でした。

E4

(画像提供:E4)

「我々の知る限り、これは完全に動作し、ベースラインHPCソフトウェアスタックをサポートする初のRISC-Vクラスターであり、RISC-V ISAの成熟度と市販RISC-Vコンポーネントの第一世代を証明するものである」とチームは報告書に記している。「また、システムで認識されるものの、RDMA通信にはまだ対応していないInfinibandネットワークアダプターのサポートも評価した。」 

しかし、実際のクラスタの性能結果は期待を下回りました。これはU740の性能と機能が平凡だったことによるもので、ソフトウェアの対応状況も影響していました。とはいえ、HPCソフトウェアはRISC-Vベースのシステムでも動作しますが、期待に応えることはできません。開発者がオープンソースアーキテクチャ向けにプログラムを最適化し、適切なハードウェアがリリースされれば、状況は変わるでしょう。  

実際、研究者らは、今後の取り組みとして、ソフトウェア スタックの改善、RDMA サポートの追加、動的な電力および熱管理の実装、RISC-V ベースのアクセラレータの使用を挙げています。 

ハードウェアに関しては、SiFiveは最大128個の高性能コアを搭載したSoCを構築できます。これらのプロセッサはデータセンターやHPCワークロード向けであるため、適切なパフォーマンスのスケーラビリティと優れたメモリサブシステムを備えていることが期待されます。また、SiFiveがこれらの市場に参入すると、ソフトウェアの互換性と最適化を確保する必要が生じるため、SiFiveはソフトウェア開発者に対し、RISC-V ISA向けにプログラムを調整するよう促すと予想されます。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。