AMD Instinct MI300の詳細が明らかに、2エクサフロップスのEl Capitanスーパーコンピュータに搭載

AMDのInstinct MI300は、CPUコアとGPUコア、そして大容量の高速メモリを同一プロセッサ上に搭載した驚異的なチップになりそうですが、詳細はまだほとんど明らかにされていません。しかし今回、International Super Computing (ISC) 2023のプレゼンテーションから新たな情報を入手しました。このプレゼンテーションでは、Instinct MI300を搭載する2エクサフロップスのスーパーコンピュータ「El Capitan」の概要が紹介されています。また、研究大手imecが主催するカンファレンス「ITF World 2023」で、AMDのCTOマーク・ペーパーマスター氏が行った基調講演でも、その他の詳細が明らかになりました（ペーパーマスター氏へのインタビューはこちら）。

El Capitanスーパーコンピューターは、2023年後半の稼働開始時には世界最速となり、AMD搭載のFrontierからトップの座を奪う見込みです。このマシンにはAMDの高性能Instinct MI300が搭載されます。新たな詳細情報として、MI300設置のトポロジーマップ、AMDオースティンMI300ラボの写真、そしてEl Capitanスーパーコンピューターに搭載される新型ブレードの写真が公開されました。El Capitan導入に関するその他の最新情報についてもご紹介します。

画像

の

改めてご説明いたしますと、Instinct MI300はデータセンターAPUで、合計13個のチップレット（その多くは3Dスタック）を統合し、24個のZen 4 CPUコア、CDNA 3グラフィックスエンジン、そして合計128GBのHBM3メモリ8スタックを1つのチップパッケージにまとめています。このチップは全体で1460億個のトランジスタを搭載しており、AMDが量産したチップの中で最大の規模を誇ります。5nmプロセスによるCPUとGPUを合わせた9個のコンピュートダイは、メモリやI/Oトラフィックなどの機能を処理するアクティブインターポーザーである4個の6nmプロセスベースダイの上に3Dスタックされています。

ペーパーマスター氏のITF World基調講演は、AMDが2025年までに電力効率を30倍に向上させるという「30x25」目標と、ムーアの法則の減速に伴いコンピューティングが電力効率によって制限されるようになった現状に焦点を当てたものでした。この取り組みの鍵となるのはInstinct MI300であり、そのメリットの多くは、上記に示した簡素化されたシステムトポロジーによってもたらされています。

最初のスライドでわかるように、Instinct MI250 搭載ノードには独立した CPU と GPU があり、中央にワークロードを調整するための 1 つの EPYC CPU があります。

対照的に、Instinct MI300はパッケージ内に24コアの第4世代EPYC Genoaプロセッサを内蔵しているため、スタンドアロンCPUは不要です。しかし、スタンドアロンCPUを除けば全体的なトポロジは同じままで、4つの要素による完全接続されたオールツーオールトポロジを実現します。このタイプの接続により、他のCPUやGPUを介さずにすべてのプロセッサが直接通信できるため、他の要素にデータを中継する必要がなく、レイテンシと変動性が低減されます。これはMI250トポロジの潜在的な問題点です。MI300のトポロジマップは、MI250と同様に、各チップに3つの接続があることも示しています。ペーパーマスター氏のスライドでは、ベースダイを形成するアクティブインターポーザーを「第4世代インフィニティファブリックベースダイ」と呼んでいます。

スライドの残りの部分でご覧いただけるように、MI300はAMDを30X25の効率目標を上回る明確な道筋へと導き、同時に業界の電力トレンドも上回っています。Instinct MI300のシリコンチップを直接確認した写真もいくつか掲載していますが、以下ではEl Capitanに搭載される実際のブレードサーバ内部のMI300の様子をご覧ください。

El Capitan の AMD Instinct MI300

画像

の

ISC 2023において、ローレンス・リバモア国立研究所（LLNL）のCTOであるブロニス・R・デ・スピンスキー氏は、Instinct MI300 APUをEl Capitanスーパーコンピュータに統合することについて講演しました。米国国家核安全保障局（NNSA）は、El Capitanを活用して核技術の軍事利用を推進する予定です。

上記アルバムの最初の画像でご覧いただけるように、Supinski氏はEl Capitanシステム用のシングルブレードを披露しました。システムベンダーのHPE製のこのブレードは、スリムな1U筐体に4枚の液冷式Instinct MI300カードを搭載しています。Supinski氏はまた、AMDのオースティン研究所の写真も公開しました。そこにはMI300のシリコンチップが実際に稼働しており、チップが実際にテスト中であることが示されています。これは、Intel搭載システムで最近発生したいくつかの失敗を考慮すると、重要なポイントです。

Supinksi 氏は MI300 を「MI300A」と呼ぶことが多いのですが、それが El Capitan のカスタムモデルなのか、より正式な製品番号なのかは定かではありません。

Supinski氏は、このチップにはInfinity Cacheが搭載されていると述べたが、具体的な容量については明らかにしなかった。また、Supinski氏は単一のメモリ層の重要性についても繰り返し言及し、統合メモリ空間によってプログラミングが簡素化されることを指摘した。統合メモリ空間は、異なる種類のコンピューティングや異なるメモリプール間のデータ移動の複雑さを軽減するからだ。

Supinski氏は、MI300は複数の異なるモードで動作できるものの、プライマリモードは単一のメモリドメインとNUMAドメインで構成され、すべてのCPUコアとGPUコアに均一なアクセスメモリを提供すると指摘しています。重要な点は、キャッシュコヒーレントメモリによってCPUとGPU間のデータ移動が削減されることです。このデータ移動は、多くの場合、計算自体よりも多くの電力を消費するため、レイテンシが削減され、パフォーマンスと電力効率が向上します。Supinksi氏はまた、SierraスーパーコンピューターからEl Capitanへのコード移植は比較的容易だったと述べています。

Supinski 氏のスライドの残りには、MI250X の AI パフォーマンスが 8 倍、ワットあたりのパフォーマンスが 5 倍というパフォーマンス予測など、AMD がすでに公開している情報が含まれています。

画像

の

HPEは、ShastaアーキテクチャとSlingshot-11ネットワークインターコネクトをベースにEl Capitanシステムを構築しています。これは、米国エネルギー省の他のエクサスケール・スーパーコンピュータ、つまり世界最速スーパーコンピュータであるFrontierと、度々遅延が発生しているIntelシリコン搭載のAuroraの両方に搭載されているものと同じプラットフォームです。

NNSAは、SierraスーパーコンピュータとEl Capitanを同時に運用するために、インフラを増強する必要がありました。その作業には、計算専用電力供給能力を45MWから85MWに増強することが含まれていました。冷却システムは新たに18,000トンの冷却塔を追加することで28,000トンに増強され、さらに15MWの電力を供給できます。これにより、施設全体の電力供給能力は100MWになりますが、El Capitanの消費電力は40MW未満と予想されています。ただし、実際の値は30MW程度になる可能性があります。最終的な数値は、実際に稼働するまでは判明しません。

El Capitan は、RHEL 上に構築された完全なソフトウェアスタックである NNSA のカスタム Tri-lab オペレーティングシステムソフトウェア (TOSS) を使用する最初の高度技術システム (ATS) になります。

El Capitanのストレージ用Rabbitプログラム

画像

の

LLNLは、今年後半に稼働開始予定のEl Capitanに導入されるソフトウェアの検証に、より小型の「EAS3」システムを使用しています。LLNLは既に、ノード近傍のローカルストレージとして多数のSSDをホストする新しいRabbitモジュールのテストを行っています。上図はこれらのノードのブロック図ですが、MI300アクセラレータではなく、ストレージオーケストレーションとデータ分析タスク用の標準的なEPYCサーバープロセッサを搭載していることに注意してください。これらの高速ノードは、大量の受信データを迅速に吸収するバーストバッファとして機能し、その後、より低速なバルクストレージシステムにシャッフルされます。

AMD Instinct MI300 タイムライン

開発が予測通りのペースで進んでいることから、El Capitanは今年後半の稼働開始に向けて順調に進んでいることは明らかです。MI300はAMDの高性能コンピューティング製品に新たな道を切り開きますが、AMDによると、これらのHalo MI300チップは高価で比較的希少になるとのことです。これらは大量生産品ではないため、EPYC GenoaデータセンターCPUのように広く普及することはないでしょう。しかし、この技術は、異なるフォームファクターの複数のバリエーションに浸透していくでしょう。

このチップは、NvidiaのGrace Hopperスーパーチップとも競合する。これは、Hopper GPUとGrace CPUを同一ボード上に搭載したチップで、今年中に発売される予定だ。NeoverseベースのGrace CPUはArm v9命令セットをサポートし、システムにはNvidiaが新たに開発したNVLink-C2C相互接続技術で融合された2つのチップが搭載される。一方、AMDのアプローチは、優れたスループットとエネルギー効率を実現するように設計されており、これらのデバイスを1つのパッケージに統合することで、Grace Hopperのように2つの別々のデバイスに接続する場合よりも、ユニット間のスループットが向上するのが一般的だ。

MI300は、当初はx86コア、GPUコア、メモリなど、様々な構成で利用可能な様々な数のコンピュートタイルを搭載するように設計されたIntelのFalcon Shoresチップの競合製品となるはずでした。Intelは最近、このチップの発売を2025年に延期し、GPUとAIアーキテクチャのみを搭載するチップに再定義しました。これにより、CPUコアは搭載されなくなりました。つまり、IntelはInstinct MI300の直接的な競合相手を失ってしまったのです。

El Capitanの稼働開始日が刻一刻と迫っていること、そしてAMDがスーパーコンピューターの開発を納期通りに完了させる実績があることを考えると、AMDがInstinct Mi300 APUに関する詳細情報をまもなく公開すると予想されます。AMDは6月13日に次世代データセンターとAIテクノロジーに関するライブストリーミングイベントを開催する予定で、そこでさらに多くの情報が明らかになることを期待しています。イベントの最新情報が届き次第、お伝えします。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。

Deals