21
AMDがEl Capitanを制覇:EPYC GenoaとRadeon Instinctが2エクサフロップスのDOEスーパーコンピュータを駆動

AMDは本日、米国エネルギー省(DOE)が6億ドルのEL CapitanにZen 4アーキテクチャとRadeon GPUを搭載した同社の次世代EPYC Genoaプロセッサを選択したと発表した。この2エクサフロップスのシステムは、現在稼働中の上位200台のスーパーコンピュータを合わせた速度よりも高速となる。 

AMDはIntelとNvidiaの両社を破り、今回の契約でDOEとのエクサスケールシステム契約を2件目獲得しました(Frontierの詳細はこちら)。一方、Intelは既にDOEの3台目(そして唯一残る)エクサスケール・スーパーコンピューターであるAuroraの契約を獲得しています。

多くのアナリストは、エネルギー省がEl Capitanの契約をNVIDIAに提供するだろうと主張していたため、本日の発表はNVIDIAにとって新たな損失となる。同社は現在、エクサスケール級スーパーコンピュータのプロジェクトには一切参加していない。これは特に興味深い。なぜなら、NVIDIAのGPUは現在、上位500位のスーパーコンピュータを独占しており、データセンターにおけるGPUアクセラレーションコンピューティングの主要ソリューションとなっているからだ。 

したがって、DOEがAMDの次世代プラットフォームを選択したことは、AMDの次世代製品がIntelやNVIDIAの将来の製品よりもプロジェクトに適していることを示していると言えるでしょう。また、このシステムがAIと機械学習のワークロードに特に重点を置いていることも注目に値します。

さて、技術的な部分に移りましょう。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

AMD Zen 4 EPYC Genoa および Radeon Instinct

画像

1

4

(画像提供:AMD)

AMDのEPYC GenoaプロセッサはEl Capitanのx86バックボーンを形成していますが、同社はプロセスノード、コア数、クロック速度など、新しい設計に関する詳細を一切明らかにしていません。ただし、GenoaはZen 3設計を採用する次世代EPYC Milanプロセッサの後継となるZen 4アーキテクチャを採用していることは分かっています。Genoaプロセッサは次世代メモリ(DDR5、あるいは現在のDDR4を超える規格)をサポートし、さらに次世代I/O接続(詳細は不明)も備えています。

AMDとDOEは、採用されているGPUアーキテクチャの詳細についても明らかにしておらず、これらのカードをRadeon Instinctラインナップにおける「新しいコンピューティングアーキテクチャ」とだけ表現しています。これらのGPUは「混合精度演算」をサポートし、ディープラーニングワークロード向けに最適化されていることは明らかです。また、この設計には「次世代」高帯域幅メモリ(HBM)が搭載され、CPUとGPU間の接続であるInfinity Fabricをサポートすることも分かっています。これについては後ほど詳しく説明します。 

(画像提供:DOE)

6億ドルのEl Capitanスーパーコンピューターの消費電力は「40メガワット(MW)を大幅に下回る」見込みで、DOEの代表者は40MWではなく30MWの範囲に近づくと述べている。 

このシステムは、現在広く採用されているCray Shastaスーパーコンピューティング・プラットフォームを採用し、約30MWの計算能力という途方もない熱負荷を水冷サブシステムで分散させています。米国エネルギー省(DOE)は、El Capitanが使用するキャビネットの数やCPU/GPUの数を明らかにしていませんが、ブレードを端から端まで並べると、ヨセミテにある標高3,600フィートのエル・キャピタンの山頂の3倍の高さになるとしています。El Capitanで使用されるSlingshotネットワークソリューションを含むShastaアーキテクチャの詳細については、こちらをご覧ください。 

現在、Cray独自のSlingshotファブリックは、Cray設計のASICを搭載し、スイッチポートあたり200Gbpsの転送速度を実現する統合型トップオブラックスイッチにノードを接続しています。しかし、El Capitanでは、ネットワーク機能を強化した将来版が採用される可能性が高いでしょう。Slingshotネットワークファブリックは、輻輳を緩和するインテリジェントなルーティングメカニズムを含む、強化された低遅延プロトコルを採用しています。この相互接続は光リンクもサポートしていますが、主に低コストの銅線をサポートするように設計されています。 

このシステムでは、Clusterstor E1000をベースとしたストレージソリューションも採用されます。これは、ディスクとフラッシュの混在環境で構成され、ハードドライブの経済性と容量を最大限に引き出しながら、階層化によってフラッシュのパフォーマンスを最大限に活用します。このシステムは、Slingshotネットワークを介して通信を行います。 

AMDの次世代CPU-GPU Infinity Fabric 3.0とROCm

画像

1

6

(画像提供:AMD)

Slingshotファブリックはノード間でビットを転送しますが、プロセッサとGPU間のノード内データ移動は、ローカルコンピューティングの効果を最大化するために非常に重要です。この点で、AMDは、CPUとGPU間の統合メモリアクセスをサポートする第3世代Infinity Fabricをシステムに採用すると発表しました。AMDは以前、CPU対GPUのInfinity FabricがGPUとCPUの比率を4:1にすることを明らかにしています。 

Infinity Fabric 3.0のメモリコヒーレンスにより、プログラミングが大幅に簡素化され、2種類のコンピューティングデバイス間の高帯域幅・低レイテンシ接続が実現します。AMDの新しいCPU-GPU間Infinity Fabricについては昨日詳しくご紹介しましたが、重要なのは、キャッシュコヒーレントな仮想メモリによって、CPUとGPU間のデータ移動が削減され、計算自体よりも多くの電力を消費するケースが少なくなることです。これにより、レイテンシが低減され、パフォーマンスと電力効率が向上します。詳細については、こちらの詳細をご覧ください。 

世界中の最先端技術も、開発者にとって使いやすいツールチェーンで均質に連携できなければ意味がありません。AMDは、オープンソースのROCmヘテロジニアスプログラミング環境を活用し、OpenMP環境におけるCPUとGPUのパフォーマンスを最大限に高めています。米国エネルギー省(DOE)は最近、ローレンス・リバモア国立研究所(DOE傘下)のセンター・オブ・エクセレンスに1億ドルを投資し、ROCmの開発を支援しました。これはAMDにとってはもちろんのこと、ROCm財団にとっても大きな後押しとなります。この投資は、AMDのすべての顧客のエコシステムをさらに発展させるでしょう。El Capitanは、パッケージ管理にオープンソースのSpackも使用しています。 

全体として、DOE は、El Capitan がマイクロサービス、Kubernetes、コンテナをサポートする一般的なクラウド環境のように動作することを計画しています。 

それが意味するもの

画像

1

2

(画像提供:DOE)

AMDは現在、エクサスケール・スーパーコンピュータの契約3件のうち2件を獲得しており、これは同社の次世代EPYCプラットフォームがHPCおよびスーパーコンピューティング・アプリケーションにおいて有望であることを物語っています。既にお伝えしたように、EPYCプラットフォームはこれらの市場で急速に普及しており、DOEの承認は、AMDの次世代プロセッサとグラフィックスカードが、NVIDIAやIntelといった競合製品を凌駕し、この用途に特に適していることを明確に示しています。  

AMDのInfinity Fabric 3.0は今回の勝利に重要な役割を果たしており、NVIDIAがエクサスケールコンピューティングで勝利を収められていない理由の一端を説明できるでしょう。IntelもAuroraスーパーコンピュータの基盤となるPonte Vecchioアーキテクチャの開発に取り組んでおり、そのアプローチはOneAPIプログラミングモデルを強く活用し、CPUとGPU間の共有メモリプール(愛称Rambo Cache)を統合しています。 

一方、Nvidia は CPU と GPU の両方を製造しておらず、そのため同様の機能を実現できないため、スーパーコンピュータの分野で苦戦する可能性があります。許容できる電力エンベロープ内でエクサスケールクラスのパフォーマンスを達成するには、このタイプのアーキテクチャと、その基盤となる統合プログラミングモデルが必要ですか? これは未解決の問題ですが、Nvidia はコヒーレンス機能を提供するはずの CXL コンソーシアムに参加しており、AMD と Intel の両社は米国エネルギー省のエクサスケールクラスのスーパーコンピュータ向けに非常に重要な契約を獲得しています (より広範なサーバーエコシステムでは、勝利した HPC 技術が採用されることが多い)。しかし、Nvidia と、間もなく買収される Mellanox は、HPC およびデータセンター分野の GPU アクセラレーションコンピューティングで支配的な地位にあるにもかかわらず、そのような契約獲得について何も発表していません。 

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。