
本日、多数のスーパーコンピューティング企業が最新のベンチマークテスト結果をTop500委員会に提出し、トップの座を競い合いました。Intel搭載のAuroraスーパーコンピュータは、Top500リストで1位を獲得したAMD搭載のFrontierからトップの座を奪うと広く予想されていましたが、結果は2位でした。しかし、AuroraはAI中心のHPL-MxP混合精度ベンチマークでトップの座を獲得し、Intelは10.6 AIエクサフロップスの性能を誇る世界最速のAIスーパーコンピュータを開発したと主張することができました。
注目すべきは、Auroraがまだ完全には稼働していないため、ベンチマークテストの提出にはシステム全体が使用されていないことです。Auroraは、ハードウェアや冷却システムの故障、運用エラー、ネットワークの不安定性など、数多くのハードウェア問題に悩まされています(詳細は下記の最後のセクションをご覧ください)。これらの問題が依然として発生しているのは少々意外です。このシステムは9年前に初めて発表され、2番目のリビジョンは5年前に発表され(最初のバージョンはキャンセルされました)、最終コンポーネントは11か月前に導入されたのです。
システムは現在、10,624 枚のコンピューティング ブレードにまたがって 21,248 個の CPU と 63,744 個の GPU をフル装備していますが、システムをホストするアルゴンヌ国立研究所 (ANL) は、Top500 リストに対してフルシステムの Linpack 実行を再度提出できませんでした。
スワイプして水平にスクロールします
システム | コア | Rmax (PFlop/s) | Rpeak (PFlop/s) | 電力(kW) |
Frontier - HPE Cray EX235a、AMDカスタム第3世代EPYC 64C 2GHz、AMD Instinct MI250X | 8,699,904 | 1,206.00 | 1,714.81 | 22,786 |
Aurora - HPE Cray EX - Xeon CPU Max 9470 52C 2.4GHz、Intel データセンター GPU | 9,264,128 | 1,012.00 | 1,980.01 | 38,698 |
Eagle - Microsoft NDv5、Xeon Platinum 8480C 48C 2GHz、NVIDIA H100 | 2,073,600 | 561.20 | 846.84 | ? |
代わりに、Auroraは1.012エクサフロップスで2位となり、システムの87%(全10,624ノード中9,234ノード)がアクティブになった状態でエクサフロップスの壁を突破しました。これにより、Auroraの2位の地位は確固たるものとなりました。Auroraは6ヶ月前に、システムの半分のみを使用した最初の提出でも585.34ペタフロップスを達成し、2位を獲得しました。
画像
1
の
4

Auroraは、High-Performance Linpack(HPL)ベンチマークにおいてFrontierよりも高速であり、完了すればTop500でトップに立つと予想されていますが、期待に応えるにはさらなるチューニングが必要なのは明らかです。Frontierは1.206エクサフロップスの性能でAuroraより約19%高速であり、線形スケーリングを仮定すると、Top500ベンチマーク実行に使用されなかった残りの13%のノードを追加しても、Auroraは依然として勝利を収めることはできません。
IntelはAuroraの理論上のピーク性能を2エクサフロップス(Rpeak)と大々的に宣伝していますが、スーパーコンピュータは持続性能(Rmax)で評価されます。FrontierはLinpackでピーク性能の70%を持続性能として実現しているのに対し、Auroraはピーク性能の51%に過ぎません。これは今後改善が期待され、Auroraが持続ワークロードにおいてピーク性能(約1.4エクサフロップス)の70%を同様に実現できれば、簡単にトップの座を奪うでしょう。
ANLに、Auroraが完成すればTop500でFrontierを上回りトップに立つ見込みがあるか尋ねたところ、担当者は「契約上の目標値はFrontierより高速です」と答えました。「ですから、その数値を達成できればFrontierより高速になります」。注目すべきは、声明ではAuroraがFrontierを上回ると言っているのではなく、「上回るはずだ」と言っている点です。実際のパフォーマンス目標については、改めて確認しました。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
Auroraは、HPL-MxP混合精度ベンチマークにおいて、Auroraシステムのわずか89%しか稼働していない状態で10.6エクサフロップスのAI性能を達成し、1位を獲得しました。このベンチマークは、Top500ランキングに使用されたLinpackベンチマークで使用されるFP64よりも低い精度(FP32以下、さらにはFP16)を優先します。そのため、このベンチマークはAIワークロードや、増加し続ける他の実世界のアプリケーションをより適切に表現しています。FP64は主に従来の科学計算に使用され、その分野でもその割合は縮小しているという意見もあります。
AI時代において、HPL-MxPは実世界のパフォーマンスをモデル化する上でますます重要になっていますが、Auroraの首位を巡る争いは熾烈なものになるでしょう。NVIDIAのGrace-Hopperを搭載した大規模システムはまだリーダーボードに名を連ねていません。現在20エクサフロップスのAI性能を約束しているAlpsスーパーコンピュータは、2024年6月末までに10,752基のGrace-Hopperプロセッサをすべて搭載する予定であり、リーダーの座をめぐる争いは激化するでしょう。
高性能共役勾配(HPCG)ベンチマークも、Linpackよりも実際のワークロードアプリケーションをより正確に反映するように設計されています。Auroraはこのベンチマークでも素晴らしいパフォーマンスを発揮し、スーパーコンピュータのわずか38.5%がアクティブだったにもかかわらず、第3位を獲得しました。Auroraは、データ集約型アプリケーションのパフォーマンスを測定するために設計されたGraph500ベンチマークでも5位を獲得しましたが、ANLはこのベンチマーク実行時にシステムのどの程度がアクティブだったかを明らかにしていません。
Auroraは、最も電力効率の高いスーパーコンピューターのリストであるGreen500にランクインしていないが、それは驚くことではない。Auroraのピーク時の消費電力は最大60MWで、Frontierの29MWの2倍強だが、最終的なパフォーマンスがどうなるかは不明だ。AuroraがLinpackパフォーマンスでFrontierに勝てるかどうかは明らかではないが、勝ったとしてもわずかな差で、その特定のワークロードの消費電力の増加を正当化するほどではないだろう。ただし、より低い精度で動作するアプリケーションは他にもたくさんあり、電力効率の比較はアプリケーションによって異なる。いずれにせよ、NvidiaのGrace Hopperシステムは現在、Green500のトップ10システムのうち5つを占めているため、Nvidiaは電力効率部門でIntelとAMDの両方に勝っているようだ。
オーロラはハードウェアの故障、冷却システムの故障などの問題に直面している
最終的なAuroraハードウェアの設置からANLがベンチマークを提出するまでに10ヶ月もの長い時間が経過し、マシン全体の立ち上げがなぜこれほど遅れているのかという疑問が生じました。この件についてIntelに問い合わせました。
「[...] 2023 年 6 月末 (わずか 10 か月前) に最後のコンピューティング ノードの物理的な納品を完了して以来、私たちはアルゴンヌ国立研究所および HPE と緊密に連携し、コンピューティング ノード、ストレージ システム、ファブリック、電力供給、冷却などのシステムを完全に安定化および調整してきました。」
「ハードウェアの故障、ソフトウェアのバグ、冷却システムの故障、電源の問題、ネットワークインフラの安定性、環境要因、操作エラーなどの安定性の問題にも積極的に取り組んでいます」とインテルの担当者はTom's Hardwareに語った。
アルゴンヌ国立研究所とインテルは、システムの完全稼働開始時期についてはまだ具体的な発表をしていませんが、AuroraがTop500で首位に立つチャンスは終わりに近づいていることは確かです。AMD搭載のEl Capitanは、ピークスループット2エクサフロップス(持続性なし)の性能を誇り、LinpackでAuroraとFrontierに勝利すると広く予想されています。ローレンス・リバモア研究所は本日、El Capitanのサブスケールモデルの初期結果を提出しました。システムは2024年末までに完全に導入される予定です。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。