Intel SC23アップデート：1兆パラメータのAIモデルがAuroraスーパーコンピュータ、Granite Rapidsベンチマークで動作

（画像提供：Intel）

Supercomputing 2023 で、Intel は最新の HPC および AI イニシアチブに関する多数のアップデートを提供しました。これには、第 5 世代 Emerald Rapids および将来の Granite Rapids Xeon CPU、Guadi アクセラレータ、Nvidia の H100 GPU と比較した新しい Max シリーズ GPU ベンチマーク、Aurora スーパーコンピュータで実行される「genAI」1 兆パラメータ AI モデルに関する同社の取り組みに関する新情報が含まれています。

完成すれば、Auroraは2エクサフロップス/秒（EFlop/秒）の性能で世界最速スーパーコンピュータの称号を獲得すると広く予想されています。しかし、IntelはAuroraのTop500リストへの正式なベンチマーク提出についてはまだ詳細を明らかにしていません。同社は、その発表は米国エネルギー省とアルゴンヌ国立研究所に委ねるとしています。慣例が守られれば、Top500組織は本日中に待望の結果を発表するでしょう。それまでの間、Intelのアップデートには、じっくり考えるべき多くの新しい情報が含まれています。

Aurora スーパーコンピュータベンチマーク

画像

の

インテルのAuroraスーパーコンピュータは、フル稼働時にはHBM2E搭載のSapphire Rapids Xeon Max CPU 21,248基とXeon Max GPU 60,000基を搭載し、世界最大規模のGPU導入となります。前述の通り、インテルはTop500への応募用ベンチマークをまだ公開していませんが、システムの一部が稼働している状態でのいくつかのワークロードのパフォーマンスを公開しました。

Intelとアルゴンヌ国立研究所は、科学研究のための1兆パラメータGPT-3 LLM基盤AIモデルであるgenAIプロジェクトにおいてAuroraをテストしました。Data Center GPU Max「Ponte Vecchio」GPUに搭載された膨大なメモリのおかげで、Auroraはわずか64ノードでこの大規模モデルを実行できます。アルゴンヌ国立研究所は、このモデルの4つのインスタンスを合計256ノードで並列実行しました。このワークロードは、チューニング後、最終的に10,000ノードまで拡張される予定です。

インテルは、薬物スクリーニングAI推論アプリケーションESP-MLにおいて、128ノードから256ノードへの強力なスケーリングも強調しましたが、アルゴンヌ国立研究所による競合GPUとのベンチマーク結果はさらに興味深いものです。インテルによると、PyTorch/FP32を使用したCosmicTaggerトレーニングにおいて、単一のMax 1550 GPUは、AMDのMI250アクセラレータと比較して56%の高速化、Nvidiaの前世代A100 GPUと比較して2.3倍の速度向上を実現したとのことです。また、この結果は強力なスケーリングを示しており、6GPUのSunspotテストノードでは83%の性能向上が見られました。結果として、Sunspotノードは、未知のGPUを搭載した4GPUのAMDテストシステムの2倍以上の性能、老朽化したPolarisを搭載した4GPUノードの5倍の性能を実現しました。

また、アルゴンヌは、マウスの脳をモデル化する脳コネクトームワークロード (Connectomics ML) において、512 個の Aurora ノードと 475 個のノードを持つ Polaris をテストし、Polaris に対して 2 倍の優位性があることを明らかにしました。

第5世代「エメラルドラピッズ」Xeon、グラナイトラピッズのベンチマーク予測

画像

の

Intelのデータセンターロードマップは順調に進んでおり、第5世代Emerald Rapidsチップは12月14日に発売予定です。Intelは、フラッグシップの64コアXeon 8592+と、その前身となる56コアの第4世代Xeon 8480+を比較したベンチマークを公開しました。いつものように、ベンダー提供のベンチマーク結果は鵜呑みにしないでください（テストノートはこの記事の最後のアルバムに掲載されています）。

より高いコア数から予想されるとおり、8592+ は AI 音声認識と LAMMPS ベンチマークで 1.4 倍の向上を記録し、FFMPEG メディアトランスコードワークロードでも 1.2 倍の向上を実現します。

インテルはまた、将来的に「Intel 3」ノードで製造されるGranite Rapids Xeonの性能予測も発表しました。これらのチップは、コア数の増加、動作周波数の向上、FP16のハードウェアアクセラレーション、そしてメモリスループットを大幅に向上させる新しいMCRメモリDIMMを含む12個のメモリチャネルをサポートします。インテルは、AIワークロードで2～3倍、メモリスループットで2.8倍、DeepMD+LAMMPS AI推論ワークロードで2.9倍のパフォーマンス向上を実現すると主張しています。

IntelのHBM2E搭載Xeon Max CPUは現在出荷中です。Intelは、64GBのオンパッケージHBMメモリを搭載した56コアのIntel Max 9480と、AMDの96コアのEPYC 9654を比較しました。Intelが一連のベンチマークに選んだワークロードは、メモリ制約のあるアプリケーションを対象としたユースケースで構成されており、Xeonチップのメリットが当然得られるでしょう。全体として、Intelはシミュレーション、エネルギー、材料科学、製造、金融サービスといった幅広いワークロードにおいて、EPYCの競合製品に対して平均1.2倍の優位性があると主張しています。

ガウディ3とファルコンショアーズ

画像

の

Intelは、GaudiとGPUのラインナップを統合し、単一の製品であるFalcon Shoresに統合する前の最後のGuadiアクセラレータとなる、近々発売されるGaudi 3の詳細をいくつか公開しました。5nmプロセスによるGaudi 3は、BF16ワークロードにおいてGaudi 2の4倍のパフォーマンス、2倍のネットワーク性能（Gaudi 2は24基の100GbE RoCE NICを内蔵）、1.5倍のHBM容量（Gaudi 2は96GBのHBM2Eを内蔵）を実現します。図からもわかるように、Gaudi 3は、IntelがGaudi 2で採用しているシングルダイソリューションとは対照的に、2つのコンピューティングクラスターを備えたタイルベースの設計に移行しています。

Intelは将来のFalcon Shores GPUの詳細をなかなか明らかにしませんでしたが、Habana Gaudi IPとXe GPU IPの要素を統合しているにもかかわらず、タイルベースのFalcon ShoresはOneAPIプログラミングインターフェースを介して単一のGPUとして機能し、機能すると改めて強調しました。Falcon ShoresはHBM3メモリとイーサネットスイッチングを採用し、CXLプログラミングモデルをサポートします。さらに、GaudiアクセラレータとXeon Max GPU向けに最適化されたアプリケーションはFalcon Shoresとの上位互換性が確保されるため、大きく異なる2つのGPUおよびGaudiラインナップ間でのコード連続性が顧客に提供されます。

インテルデータセンター GPU Max シリーズ

画像

の

IntelのデータセンターGPU Maxシリーズは現在出荷中です。Supermicroからは8基のOAMフォームファクターGPUを搭載したシステムが、DellとLenovoからは4基のOAM GPUを搭載したサーバーが提供されています。GPU Maxシリーズ1100 PCIeカードも、複数のベンダーから幅広く入手可能です。

Intelのベンチマークは、OAMフォームファクターの600W GPUであるMax 1550と、競合製品の350WであるPCIeフォームファクターのNvidia H100を比較したものです。そのため、これらのベンチマークは、同一条件でのパフォーマンスを比較する良い基準にはなりません。Intelは、ベンチマークの差の理由として、OAMフォームファクターのH100 GPUの入手が困難であることを挙げています。

今は、アルゴンヌ国立研究所によるAuroraスーパーコンピュータのTop500ランキングの発表を待ち望んでいます。IntelがAMD搭載のFrontierを抜いて世界最速スーパーコンピュータの座に就けるかどうかが注目されます。このランキングの更新は本日中に行われる予定です。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。

Tips