
AMDは、カリフォルニア州サンノゼで開催された「Advancing AI」イベントにおいて、AIアクセラレーター「Instinct MI300X」と世界初のデータセンターAPU「Instinct MI300A」を発表しました。急成長を遂げる生成AIおよびHPC市場の活用を目指し、AMDはMI300シリーズを、これまで量産に投入された中で最も先進的な製造技術を用いて開発しました。「3.5D」パッケージングなどの新技術を採用することで、幅広いAIワークロードにおいてNVIDIAを凌駕する性能を提供するとされる2つのマルチチップ搭載の巨大チップを製造しました。AMDはこの新しい特殊シリコンの価格を公表していませんが、製品は現在、幅広いOEMパートナーに出荷されています。
Instinct MI300は画期的な設計です。このデータセンターAPUは、合計13個のチップレット(その多くは3Dスタック)を統合し、24個のZen 4 CPUコア、CDNA 3グラフィックエンジン、そして8スタックのHBM3を融合したチップを実現しています。このチップは全体で1530億個のトランジスタを搭載し、AMDがこれまでに製造した中で最大のチップとなっています。AMDは、このチップが一部のワークロードにおいてNvidiaのH100 GPUの最大4倍の性能を発揮し、ワットあたりの性能も2倍に向上していると主張しています。
AMDは、Instinct MI300X GPUがAI推論ワークロードにおいてNidia H100と比較して最大1.6倍の性能を発揮し、トレーニング作業では同等の性能を提供すると発表しました。これにより、業界が切望していたNVIDIA GPUに代わる高性能な選択肢が提供されることになります。さらに、これらのアクセラレータは、NVIDIA GPUの2倍以上となるHBM3メモリ容量(1台あたり192GB)を搭載しており、MI300Xプラットフォームはシステムあたり2倍以上のLLMをサポートし、NVIDIA H100 HGXよりも大規模なモデルを実行できます。
AMD インスティンクト MI300X
MI300X は、AMD のチップレットベースの設計手法の頂点を極めたもので、8 つの 12Hi スタックの HBM3 メモリと、XCD と呼ばれる 8 つの 3D スタック 5nm CDNA 3 GPU チップレットを、AMD の成熟したハイブリッド ボンディング技術を使用して接続された 4 つの基礎となる 6nm I/O ダイ上に統合しています。
画像
1
の
7

その結果、304個のコンピューティングユニット、192GBのHBM3容量、そして5.3TB/sの帯域幅を備えた750Wアクセラレータが誕生しました。このアクセラレータには、チップレット間の通信を容易にする共有L3キャッシュ層として機能する256MBのInfinity Cacheも搭載されています。AMDは、チップレットを結合するパッケージング技術を「3.5D」と名付けています。これは、3DスタックされたGPUダイとI/Oダイをハイブリッドボンディングで融合し、モジュールの残りの部分には標準的な2.5Dパッケージング(水平接続)を採用していることを意味します。以下では、アーキテクチャコンポーネントについてさらに詳しく説明します。
MI300Xアクセラレータは、AMDの生成AIプラットフォームにおいて8基のGPUで動作するように設計されており、Infinity Fabricインターコネクトを介したGPU間のスループットは896GB/sです。このシステムは合計1.5TBのHBM3メモリを搭載し、最大10.4ペタフロップス(BF16/FP16)の性能を発揮します。このシステムは、Open Compute Project(OCP)のUniversal Baseboard(UBB)設計標準に基づいて構築されているため、特にハイパースケーラーにとって導入が容易です。
AMDのMI300Xプラットフォームは、NvidiaのH100 HGXプラットフォーム(BF16/FP16)と比較して、メモリ容量が2.4倍、演算能力が1.3倍優れているとされています。しかも、双方向およびシングルノードリングの帯域幅は同等です。AMDはMI300Xプラットフォームに400GbEネットワークを搭載し、幅広いNICをサポートしています。一方、NvidiaはMellanox買収によって生まれた自社製ネットワーク製品の使用を推奨しています。
画像
1
の
5

ベンダーベンチマークにはいつものように注意が必要です。AMDは多数のパフォーマンス指標を公開し、HPCワークロードではH100のFP64およびFP32ベクトル行列理論ピークスループットが最大2.4倍、AIワークロードではTF32、FP16、BF16、FP8、INT8理論ピークスループットが最大1.3倍高いことを示しました。これらはすべてスパース性なしで予測されています(ただし、MI300Xはスパース性をサポートしています)。
MI300Xの豊富なメモリ容量と帯域幅は推論に最適です。AMDは、1760億パラメータのFlash Attention 2モデルを用いて、トークン/秒スループットにおいてNvidia H100と比較して1.6倍の性能優位性を示しました。また、700億パラメータのLlama 2モデルを用いて、チャットレイテンシにおいて1.4倍の優位性を示しました(2Kシーケンス長/128トークンのワークロードの開始から終了までを測定)。
AMDのMI300Xプラットフォームは、300億パラメータのMPTトレーニングワークロードにおいて、H100 HGXシステムとほぼ同等のパフォーマンスを発揮しましたが、このテストはアクセラレータを1対1で比較するものではないことに注意が必要です。このテストでは、8つのアクセラレータをグループとして互いに競わせるため、プラットフォームレベルの性能が制限要因としてより重要になります。いずれにせよ、このパフォーマンスは、NVIDIAのGPU不足に悩まされている業界で、すぐに注目を集めるでしょう。
プラットフォームの性能について言えば、AMDはMI300Xプラットフォームのメモリ容量の優位性により、H100システムと比較して最大2倍の30Bパラメータのトレーニングモデルと70Bパラメータの推論モデルをホストできると主張しています。さらに、MI300Xプラットフォームは最大70Bパラメータのトレーニングモデルと290Bパラメータの推論モデルをサポートでき、どちらもH100 HGXがサポートするモデルの2倍の規模です。
当然、
Nvidiaの今後のH200 GPUメモリ容量と帯域幅の面ではより競争力が増しますが、コンピューティング性能は既存のH100と同等です。NvidiaはH200の出荷を来年まで開始しないため、MI300Xとの比較はまだ先のことです。
AMD インスティンクト MI300A
AMD Instinct MI300Aは、CPUとGPUを同一パッケージに統合した世界初のデータセンターAPUです。CPUとGPUを別々のチップパッケージに搭載し、連携して動作するNVIDIAのGrace Hopperスーパーチップと直接競合します。MI300Aは既にEl Capitanスーパーコンピューターで目覚ましい成功を収めており、AMDは既にパートナー企業にこのチップを出荷しています。
画像
1
の
6

MI300A は MI300X と同じ基本設計と方法論を採用していますが、EPYC および Ryzen プロセッサと同じ 8 個の Zen 4 CPU コアをそれぞれ 3 個搭載した 5nm コア コンピューティング ダイ (CCD) を 3 つ採用し、XCD GPU チップレットのうち 2 つを置き換えています。
MI300Aは、6つのXCD GPUチップレットに分散された24スレッドCPUコアと228個のCDNA 3コンピュートユニットを搭載しています。MI300Xと同様に、すべてのコンピュートチップレットは、4つのI/Oダイ(IOD)とのハイブリッドボンディングによって3Dスタックされており、標準的なチップパッケージング技術では実現できない、はるかに優れた帯域幅、レイテンシ、そしてエネルギー効率を実現しています。
AMDは、MI300Xで使用されていた8つの12Hi HBM3スタックの代わりに8つの8Hi HBM3スタックを使用することでメモリ容量を削減し、容量を192GBから128GBに削減しました。しかし、メモリ帯域幅は5.3TB/sのままです。AMDによると、メモリ容量を削減したのは電力や熱の制限によるものではなく、対象となるHPCおよびAIワークロードに合わせてチップをカスタマイズするためです。いずれにせよ、128GBの容量と5.3TB/sのスループットは、どちらもNvidiaのH100 SXM GPUの1.6倍に相当します。
MI300AのデフォルトのTDPは350Wですが、最大760Wまで設定可能です。AMDは使用状況に応じてCPUとGPUの間で電力を動的に配分し、パフォーマンスと効率を最適化します。AMDは可能な限り巧妙な再利用を採用しています。MI300AはEPYC Genoaプロセッサと同様にAMD標準のLGA6096ソケットに挿入できますが、このソケットのSH5バージョンはSP5を使用するAMDのEPYCプロセッサとは電気的に互換性がありません。
メモリ空間はCPUとGPUで共有されるため、データ転送が不要になります。この技術は、ユニット間のデータ転送を排除することでパフォーマンスとエネルギー効率を向上させると同時に、コーディング負荷を軽減します。MI300Xと同様に、このチップには256MBのInfinity Cacheが中央に搭載されており、チップを通過するデータの帯域幅とレイテンシを確保します。
AMDは、FP64マトリックス/DGEMMおよびFP64/FP32ベクターTFLOPSにおいて、H100に対して1.8倍の優位性があると主張しています。また、TF32、FP16、BF16、FP8、INT8においてもH100と同等の性能であると主張しています。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
画像
1
の
3

AMDは、OpenFOAM HPCバイクテストにおいて、MI300AがNvidia H100の4倍の速度を出したと主張していますが、この比較は理想的ではありません。H100はGPUですが、MI300AのCPUとGPUの融合コンピューティングは、共有メモリアドレス空間を通じて、メモリを大量に消費し、時にはシリアル処理となるワークロードにおいて、本質的な優位性を提供します。CPUとGPUを密結合実装で統合したNvidia Grace Hopper GH200スーパーチップとの比較の方が適切ですが、AMDはNvidia GH200のOpenFOAMテスト結果が公開されているものは見つからなかったと述べています。
AMDは、NVIDIAのGH200とのワット当たりパフォーマンス比較データを提示し、H200が2倍の優位性を持つことを強調しました。これらの結果は、H200に関する公開情報に基づいています。AMDはまた、Mini-Nbody、HPCG、GromacsベンチマークにおけるH100との比較も強調し、それぞれ1.2倍、1.1倍、1.1倍のリードを示したと主張しています。繰り返しになりますが、これらのベンチマークではGH200との比較の方が理想的です。
AMD Instinct MI300X および MI300A アーキテクチャ
上記では設計の基本について説明しましたが、これらの詳細は、以下のセクションを理解するための重要な視点を提供します。
画像
1
の
4

AMDはTSMCの3DハイブリッドボンディングSoIC(シリコンオン集積回路)技術を活用し、CPU CCD(コアコンピューティングダイ)やGPU XCDなど、様々なコンピューティング要素を4つのI/Oダイの上に3Dスタックします。各I/Oダイには、2つのXCDまたは3つのCCDを搭載できます。各CCDは既存のEPYCチップで使用されているCCDと同一で、それぞれ8つのハイパースレッドZen 4コアを搭載しています。MI300AはこれらのCCD3つと6つのXCDを使用しており、MI300Xは8つのXCDを使用しています。
HBMスタックは、2.5Dパッケージング技術を用いた標準インターポーザーを使用して接続されています。AMDは2.5Dと3Dパッケージング技術を組み合わせたことから、「3.5D」パッケージングという名称を採用しました。各I/Oダイには、8つのHBMスタックのうち2つをホストする32チャネルのHBM3メモリコントローラが搭載されており、デバイス全体で合計128個の16ビットメモリチャネルが利用可能です。MI300Xは12Hi HBM3スタックを使用して192GBの容量を実現し、MI300Aは8Hiスタックを使用して128GBの容量を実現しています。
AMDはまた、合計256MBのInfinity Cache容量を4つのI/Oダイすべてに分散して追加しました。これにより、プリフェッチャーを介してデータトラフィックをキャッシュし、ヒット率と電力効率を向上させながら、バス競合とレイテンシを削減します。これにより、CPUに新たなレベルのキャッシュ(概念的には共有L4)を追加すると同時に、GPUに共有L3キャッシュを提供します。AMD Infinity Fabric AP(Advanced Package)インターコネクトと呼ばれるInfinity Fabric NoC(ネットワーク・オン・チップ)は、HBM、I/Oサブシステム、そしてコンピューティングを接続します。
このチップは、4つのI/Oダイにまたがり、合計128レーンのPCIe 5.0接続を備えています。これらは2つのグループに分かれており、1つは4つのx16 PCIe 5.0 + 第4世代Infinity Fabricリンクの組み合わせ、もう1つはInfinity Fabric専用の4つのx16リンクで構成されています。後者はMI300同士の接続(クロスソケットトラフィック)にのみ使用されます。
MI300Xは純粋なエンドポイントデバイス(外部CPUに接続)として機能するため、PCIeルートコンプレックスはエンドポイントデバイスとして機能する必要があります。一方、MI300AはネイティブCPUコアを搭載しているためセルフホスト型であり、PCIeルートコンプレックスはホストとして機能する必要があります。両方のシナリオに対応するため、AMDのカスタムビルドMI300 I/Oダイは、同社のIPポートフォリオに新たに追加された、同一のPCIe 5.0ルートコンプレックスから両方のモードをサポートします。
AMDのCPU CCDは、基盤となるI/Oダイに3Dハイブリッドボンディングされており、新しいインターフェースが必要です。これはEPYCサーバープロセッサに搭載されているCCDと同じですが、
これらのチップはGMI3(グローバルメモリインターコネクト3)インターフェースを介して通信します。標準的な2.5Dパッケージングを活用したものです。MI300では、AMDはGMI3リンクをバイパスする新しいボンドパッドビアインターフェースを追加し、チップを垂直に積層するために必要なTSV(シリコン貫通ビア)を提供します。このインターフェースは2リンク幅モードで動作します(詳細は上記のリンクをご覧ください)。
5nm XCD GPUダイは、AMDのGPU設計の完全なチップレット化を象徴しています。MI200で使用されているチップレットは2つの独立したデバイスとして機能しますが、MI300のチップレットは1つのモノリシックGPUとして機能します。
各XCDには40個の物理CDNA3コンピューティングユニットが搭載されていますが、実際にアクティブになるのは38個のみです(これにより歩留まりの問題を軽減できます)。38CUチップレットにはそれぞれ4MBの共有L2メモリ(16x256KB)が搭載されています。XCDとIODは、ジョブを小さな部分に分割し、ディスパッチし、同期を維持するためのハードウェア支援メカニズムを備えており、ホストシステムのオーバーヘッドを削減します。また、これらのユニットはハードウェア支援によるキャッシュコヒーレンスも備えています。
上記のプレゼンテーションの最後のスライドでは、CDNA 3 コンピューティング ユニットの機能強化とパフォーマンスが示されています。
画像
1
の
4

各I/Oダイには2枚のXCDが接続されており、HBM3スタックの2つに接続されます。これにより、GPUは接続された2つのスタックとプライベートに通信できるため、帯域幅、レイテンシ、一貫性の問題を軽減できます。ただし、すべてのXCDは任意のメモリスタックと通信できます(I/Oダイ間のInfinity Fabric接続は、アルバムの最初の2つの画像で色付きのバーとして視覚的に示されています)。
当然のことながら、リモートスタックへのアドレス指定にはレイテンシのペナルティが発生します。メモリトランザクションは、転送距離が長くなるほどレイテンシが増加します。AMDは、IODとXCDに直接接続されたHBMはゼロホップトランザクションであるのに対し、IOD上の別のメモリスタックへのアクセスは2ホップジャンプであると指摘しています。さらに、隣接するIOD上のメモリスタックへのアクセスは3ホップジャンプです。2ホップジャンプのペナルティはレイテンシが約30%増加し、3ホップジャンプではレイテンシが60%増加します。
3枚目のスライドは、NoCから利用可能な帯域幅を示しています。パッケージの垂直セクション全体にわたって、I/Oダイ間の帯域幅は1.2 TB/s/dirです。一方、水平データパスは、I/Oデバイスからの追加トラフィックに対応するために、わずかに高い1.5 TB/s/dirの帯域幅を提供します。これにより、I/Oトラフィックをメモリトラフィックとは別に処理できます。パッケージの左右にあるPCIeコンプレックスは、各I/Oダイから64 GB/s/dirのスループットを提供します。パッケージの上部と下部では、各HBMスタックが665 GB/sのスループットを提供していることがわかります。
AMDは、EPYCプロセッサのNPS設定と同様に、コンピューティングユニットを複数の論理ドメインに分割する複数のパーティショニングスキームを備えています。これにより、異なるXCDを複数のグループに分割して帯域幅を最適化し、パフォーマンスを最大化し、「NUMA性」の影響を最小限に抑えることができます。ユニットを1つの論理デバイスとしてアドレス指定することから、8つの異なるデバイスとしてアドレス指定することまで、多様な構成が用意されており、その中間のオプションも多数用意されているため、幅広いワークロードに柔軟に対応できます。
画像
1
の
4

AMDは、コンピューティングユニットとI/Oダイの間に十分な帯域幅を確保できる唯一の現実的な方法は、3Dハイブリッドボンディング(SoIC)であると判断しました。同社はこの技術に関して豊富な経験を有しており、既に数百万台もの3D V-Cache搭載PCプロセッサに搭載されています。
同社は、この成熟したハイブリッドボンディング技術に関する長年の経験を活かし、MI300プロセッサにこの技術を採用することに自信を持っています。AMDのコンシューマー向けPCチップラインには3D V-Cacheモデルと標準モデルの両方が存在します。これとは対照的に、MI300プロセッサは、同社が製品スタック全体をこの技術に完全に依存した初めての製品です。
合計すると、SoIC接続は、3Dスタックされた様々なユニット全体で最大17TB/sの垂直帯域幅を提供します。SoICのサイズは13x29mmです。
アルバムの最後のスライドにある断面図は、3.5Dパッケージング手法の複雑さと美しさを示しています。パッケージが下層から有機基板、その上に金属配線とTSVで構成されたCoWosパッシブシリコンインターポーザー、そしてハイブリッドボンディング(9ミクロンピッチ)による3DスタックIODとXCDで構成されている様子が示されています。有機基板とシリコンインターポーザー(下側)を接続する巨大な銅バンプは、3Dスタック部分(チップ上部付近)の上部ダイと下部ダイ間の、ほとんど目に見えないハイブリッドボンディング接続がいかに微細で高密度であるかを強調しています。
ハイブリッド接合技術では、TSVを露出させて接合できるようにダイを薄くする必要があります。そのため、AMDは他の3D V-Cache搭載プロセッサと同様に、パッケージ上部にシリコンシムを配置して構造的な完全性を維持する必要があります。
画像
1
の
5

AMD の上級副社長、AMD コーポレート フェロー、および製品テクノロジー アーキテクトの Sam Naffziger 氏が、設計段階でチームが直面したいくつかの課題について説明しました。
巧みなIP再利用はAMDのチップレット戦略の要であり、MI300もこの方針に例外ではありませんでした。MI300チームには、MI300用に全く新しいCPU CCDを開発するリソースがなかったため、設計段階の早い段階でAMDのCCDチームにEPYC CCDへの3Dインターフェース(TSV)の追加を依頼しました。驚くべきことに、エンジニアリングチームは既存のGMIインターフェースの間に接続を詰め込む方法を見つけました。
最初のスライドでは、TSVの総面積を表す2つの小さな青い点と、その両側にあるオレンジ色の大きな長方形のブロックが、2.5Dパッケージングの標準GMI3インターフェースです。これは、SoIC技術がいかに驚異的な高密度化と面積効率を実現しているかを示しています。AMDはまた、GMI3インターフェースから3Dインターフェースへの信号再ルーティングを可能にするために、ゲート、スイッチ、マルチプレクサも追加しました。
AMDは、メモリコントローラやXCD内のその他のインターフェースの位置合わせを適正に保ちながら、I/Oダイを正しい位置に回転させることができるよう、I/Oダイのミラーバージョンを作成しました。エンジニアリングチームはインターフェース/信号線と電源接続を対称的に設計し、2枚目の画像に示すようにチップレットの回転を可能にしました。
しかし、AMDはMI300専用にI/Oダイをゼロから設計したにもかかわらず、チームはEPYCの既存のCCD設計を採用せざるを得ませんでした。この種の設計では通常、インターフェースの適切な位置合わせを確保するためにCCD用のミラーマスクセットが必要になりますが、設計コストと複雑さが増すため、AMDはそれを避けました。しかし、適切な位置合わせを確保するには、2つのCCDを180度回転させる必要がありました。さらに、CCDの外部インターフェースは非対称に設計されていたため、課題が生じました。
3 番目のスライドに示されているように、AMD は、I/O ダイ上のボンド パッド ビア (BPV) 接続ポイントに冗長性を追加し、CCD をミラーリングするのではなく回転させるだけで済むようにすることで、この課題を克服しました。
しかし、電力供給は依然として課題でした。TSVは非常に小さな銅線プラグであり、AMDはI/Oダイの上部に位置するコンピューティングダイに数百アンペアの電力を供給する必要がありました。細いTSVはこのような用途には適しておらず、電力供給には膨大な数の接続が必要になります。AMDはこの問題を克服するために新しい電力グリッドを設計し、IRドロップの目標値を満たし、電流密度の制限を超えることはありませんでした。
最後に、3Dスタック設計のため、この設計にはいくつかの新たな熱的課題が生じました。AMDは熱モデリングを用いて、メモリ集中型とGPU集中型の2種類の極端な動作条件を特定し、使用パターンに基づいてユニット間で電力を動的にシフトするという実績のある戦略を活用して、これらの問題を軽減しました。
こうして、驚異的なプロセッサが誕生しました。AMDのMI300は、AIおよびHPCワークロードにおけるNVIDIAの優位性に、久しぶりに真の挑戦を挑む存在となります。AMDは、需要に対応できる生産能力を備えていると主張しています。これは、GPU不足の時代における競争優位性であり、業界における急速な普及を促進することは間違いありません。AMDは現在、MI300プロセッサをパートナー企業に出荷しています。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。