99
AMDがMI350XとMI355X AI GPUを発表、世代間で最大4倍のパフォーマンス向上、推論速度は35倍高速化と主張
CDNA
(画像提供:AMD)

AMDは、カリフォルニア州サンノゼで開催されたイベント「Advancing AI 2025」において、AIワークロード向けの新製品MI350XおよびMI355X GPUを発表しました。これらの新アクセラレータは、前世代のMI300Xと比較して3倍の性能向上を実現し、市場をリードするライバルであるNvidiaに対する競争力を強化するとAMDは主張しています。AMDによると、同種推論ベンチマークではNvidiaを最大1.3倍上回り、特定のトレーニングワークロードでは最大1.13倍のリードを奪っています。 

AMDはまた、前世代のAMD MI300Xモデルと比較して「AIコンピューティング性能」が4倍、推論性能が35倍向上したと主張しています。これは主に、CDNA 4アーキテクチャへの移行と、コンピューティングチップレットに小型で高度なプロセスノードを採用することで実現しました。AMDのMI350プラットフォームの生産は先月開始されました。 

asdfa

(画像提供:AMD)

これら 2 つの MI300 シリーズ AI GPU は、同社が MI400 の展開を進める中、今年の残りの期間および 2026 年まで AMD のラックレベル ソリューションを強化することになります。 

MI350XとMI355Xは、最大288GBのHBM3Eメモリ、最大8TB/sのメモリ帯域幅、そしてFP4およびFP6データ型の新規サポートなど、同一の基本設計を共有しています。ただし、MI350Xは総ボード消費電力(TBP)が低い空冷ソリューション向けに設計されているのに対し、MI355Xは消費電力を一段と高め、最高のパフォーマンスを実現する液冷システム向けに設計されています。

スワイプして水平にスクロールします

AMD MI350XおよびMI355Xの仕様

仕様(ピーク理論値)

AMD インスティンクト MI325X GPU

AMD INSTINCT MI350X GPU

AMD INSTINCT MI350X プラットフォーム

AMD INSTINCT MI355X GPU

AMD INSTINCT MI355X プラットフォーム

GPU

インスティンクト MI325X OAM

インスティンクト MI350X OAM

8 x インスティンクト MI350X OAM

インスティンクト MI355X OAM

インスティンクト MI355X OAM 8 台

GPUアーキテクチャ

CDNA 3

CDNA 4

CDNA 4

CDNA 4

CDNA 4

専用メモリサイズ

256 GB HBM3E

288 GB HBM3E

2.3TB HBM3E

288 GB HBM3E

2.3TB HBM3E

メモリ帯域幅

6 TB/秒

8 TB/秒

OAM あたり 8 TB/秒

8 TB/秒

OAM あたり 8 TB/秒

FP64パフォーマンス

行4 - セル1

72 TFLOPS

577 TFLOPS

78.6 TFLOPS

628.8 TFLOPS

FP16パフォーマンス

2.61 PFLOPS

4.6 PFLOPS

36.8 PFLOPS

5 PFLOPS

40.2 PFLOPS

FP8パフォーマンス

5.22 PFLOPS

9.2 PFLOPs

73.82 PFLOPs

10.1 PFLOPs

80.5 PFLOPs

FP6パフォーマンス

7行目 - セル1

18.45 PFLOPS

147.6 PFLOPS

20.1 PFLOPS

161 PFLOPS

FP4パフォーマンス*

行8 - セル1

18.45 PFLOPS

147.6 PFLOPS

20.1 PFLOPS

161 PFLOPS

AMDは、CPUコアとGPUコアの両方を1つのダイに搭載した前世代のMI300Aのように、このチップのAPUバージョンをリリースする予定はありません。対照的に、この世代ではGPUのみの設計となります。 

画像

1

7

空自
(画像提供:AMD)

AMDのMI355Xは、Nvidiaの競合GPUであるGB200およびB200の1.6倍のHBM3Eメモリ容量を搭載しながら、メモリ帯域幅は同じく8TB/sです。AMDは、ピーク時のFP64/FP32においてNvidiaのチップの2倍の優位性があると主張していますが、これはNvidiaがAIに適した低精度フォーマットに最適化を重点的に行っていることを考えると驚くべきことではありません。特に、MI350のFP64マトリックス性能はMI300Xと比較して半分になっていますが、ベクター性能は世代交代ごとに約4%低下しています。

FP16、FP8、FP4といった低精度フォーマットに移行すると、AMDの性能は概ねNVIDIAの同等性能と同等か、わずかに上回っていることがわかります。特に注目すべきはFP4と同等のレートで動作するFP6のパフォーマンスで、AMDはこれを差別化要因と見ています。 

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

NVIDIAの競合チップでも見られるように、新しい設計と高性能化は消費電力の増加を伴い、水冷式の高性能MI355Xモデルでは、合計ボード電力(TBP)が最大1,400Wに達します。これは、MI300Xの750W、MI325Xの1,000Wという熱容量から大幅に増加しています。

AMD によれば、このパフォーマンス密度の向上により、顧客は単一のラックにさらに多くのパフォーマンスを詰め込むことができるようになり、ラック レベルでの 1 ドルあたりのパフォーマンスを定量化する、非常に重要な TCO (総所有コスト) あたりのパフォーマンス指標が低減されるという。

画像

1

6

空自
(画像提供:AMD)

新しいチップはパフォーマンスにおいて数多くの進歩を遂げていますが、3D と 2.5D パッケージング テクノロジを統合するという基本的な設計原理は変わっていません。前者はアクセラレータ コンピュート ダイ (XCD) と I/O ダイ (IOD) を融合するために使用され、後者は IOD 同士および 12-Hi HBM3E スタックに接続するために使用されます。 

このチップは合計8つのXCDチップレットを搭載し、それぞれ32個の演算ユニット(CU)が有効で、合計256CUとなります(AMDは歩留まり向上のため、XCDごとに4個のCUを予備として確保しており、必要に応じて無効化されます)。XCDは、前世代の5nmプロセスから、MI350シリーズではTSMCのN3Pプロセスノードで製造されるダイに移行しました。チップ全体では1,850億個ものトランジスタを搭載しており、前世代の1,530億個から21%増加しています。 

さらに、I/Oダイ(IOD)はN6プロセスノードのままですが、AMDはIODタイルを4つから2つに削減することで設計を簡素化しました。この再編により、AMDはInfinity Fabricのバス幅を2倍にし、バイセクション帯域幅を最大5.5TB/sに向上させるとともに、バス周波数と電圧を下げることで消費電力を削減しました。これにより、コア以外の電力要件が削減され、より多くの電力をコンピューティングに配分できるようになります。 

MI300 シリーズと同様に、Infinity Cache (メモリ側キャッシュ) は HBM3E (HBM スタックあたり 32 MB のキャッシュ) の前に配置されます。  

完成したプロセッサはPCIe 5.0 x16インターフェースを介してホストに接続し、ホストからは単一の論理デバイスとして認識されます。GPUは7つのInfinity Fabricリンクを介して他のチップと通信し、合計1,075GB/秒のスループットを提供します。 

画像

1

9

空自
(画像提供:AMD)

MI350XとMI355XはどちらもOAMフォームファクターを採用し、前世代のMI300Xと同様に、標準化されたUBBフォームファクターサーバー(OCP仕様)に適合します。AMDによると、これにより導入までの時間が短縮されます。

チップはAll-to-Allトポロジを介して相互通信を行い、ノードあたり8つのアクセラレータが153.6GB/秒の双方向Infinity Fabricリンクを介して通信します。各ノードは、AMDの第5世代EPYC「Turin」チップを2つ搭載しています。 

AMD はあらゆる形式のネットワークをサポートしていますが、新しい Pollara Ultra Ethernet Consortium 対応 NIC (UEC) を最適なスケールアウト ソリューションとして位置付けており、Ultra Accelerator Link (UAL) インターコネクトはスケールアップ ネットワークに採用されています。 

AMDは、直接液冷(DLC)ラックと空冷(AC)ラックの両方を提供しています。DLCラックは、液冷サブシステムによる高密度化により、128基のMI355X GPUと36TBのHBM3Eを搭載可能で、より小型のノードフォームファクタの使用を可能にします。ACソリューションは、最大64基のGPUと18TBのHBM3Eを搭載可能で、大型ノードを用いて空冷により熱負荷を分散します。 

AMDは、NVIDIAと比べて明らかに不足しているラックスケールアーキテクチャのパワーを最大限に引き出すことに注力してきました。AMDは一連の買収を実施し、強力かつ拡大を続けるパートナーOEM企業を育成することで、目標達成に貢献しています。 

画像

1

6

空自
(画像提供:AMD)

予想通り、AMDは自社の前世代システムだけでなく、NVIDIAの同等製品との比較も含め、パフォーマンス予測とベンチマーク結果の一部を公開しました。ベンダー提供のベンチマーク結果は鵜呑みにせず、ご自身でご確認ください。以下にテストノートを掲載しましたので、ぜひご覧ください。

AMD は、8 GPU の MI355X セットアップでは、Llama 3.1 405B で 4 つの MI355X と 4 つの DGX GB200 との比較で 1.3 倍高速になり、DeepSeek R1 の推論では 8 つの GPU B200 HGX 構成に対して 8 つの MI355X で 1.2 倍高速になり、Llama 3.1 405B でも同等のパフォーマンスが得られると主張しています (すべて FP4 でテスト済み)。 

AMDはまた、MI355XはトレーニングワークロードではNvidiaのB200やGB200とも競合できると述べていますが、ここでは、さまざまなLLamaモデルの中で同等か、わずかに1.13倍のパフォーマンス優位性を強調しています。 

AMDによると、MI355Xは、AIエージェントおよびチャットボットのワークロードにおいてMI300Xと比較して最大4.2倍のパフォーマンスを提供し、コンテンツ生成、要約、会話型AI処理においても2.6倍から3.8倍の大幅な向上を実現しています。その他の世代別ハイライトとしては、DeepSeek R1で3倍、Llama 4 Maverickで3.3倍の性能向上が挙げられます。  

現在開催中の AMD 基調講演で詳細が明らかになった時点で、この記事を更新します。 

画像

1

6

空自
(画像提供:AMD)

ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。