59
[更新] AMD は、Instinct MI400X GPU は MI300X より 10 倍高速で、EPYC を搭載した Helios ラックスケール システムに搭載されると発表しました…
AMD
(画像提供:AMD)

6/12更新: AMDのHeliosには128基のGPUではなく72基のGPUが搭載されていることが判明しました。変更を反映するため記事を更新しました。

AMDは木曜日に開催された「Advancing AI」イベントにおいて、同社初の自社設計ラックスケールソリューション「Helios」のプレビューを発表しました。このシステムは、同社の次世代EPYC「Venice」プロセッサをベースに、Instinct MI400シリーズアクセラレータを搭載し、近日発売予定のPensandoネットワークカードによるネットワーク接続を採用する予定です。同社によれば、フラッグシップモデルのMI400XはMI300Xの10倍の性能を誇り、MI400XがMI300Xの約3年後に発売されることを考えると、これは目覚ましい進歩と言えるでしょう。 

AI向けラックスケールソリューションに関しては、AMDは明らかにNVIDIAに後れを取っています。しかし今年は、クラウドサービスプロバイダー(Oracle OCIなど)、OEM、ODMがInstinct MI350XシリーズGPUをベースとしたラックスケールソリューションを構築・導入するようになるなど、状況は大きく変化します。ただし、これらのシステムはAMDが設計するものではなく、NVLinkのような低レイテンシ・高帯域幅のインターコネクトではなく、イーサネットを使用して各8ウェイシステムを相互接続する必要があります。

スワイプして水平にスクロールします

2025

2026

2024

2025

2026

2027

密度

128

72

NVL72

NVL72

NVL144

NVL576

GPUアーキテクチャ

CDNA 4

CDNA 5

ブラックウェル

ブラックウェル ウルトラ

ルービン

ルビン・ウルトラ

GPU/GPU+CPU

MI355X

MI400X

GB200

GB300

VR200

VR300

コンピューティングチップレット

256

?

144

144

144

576

GPU パッケージ

128

72

72

72

72

144

FP4 PFLOP(高密度)

1280

1440

720

1080

3600

14400

HBM容量

36TB

51 TB

14TB

21 TB

21 TB

147 TB

HBM帯域幅

1024 TB/秒

1,400 TB/秒

576 TB/秒

576 TB/秒

936 TB/秒

4,608 TB/秒

CPU

EPYC「トリノ」

EPYC「ヴェネツィア」

72コアのGrace

72コアのGrace

88コアのVera

88コアのVera

NVSwitch/UALink/IF

-

UALink/IF

NVSwitch 5.0

NVSwitch 5.0

NVSwitch 6.0

NVSwitch 7.0

NVSwitch 帯域幅

?

?

3600 GB/秒

3600 GB/秒

7200 GB/秒

14400 GB/秒

スケールアウト

?

?

800G、銅

800G、銅

1600G、光学

1600G、光学

フォームファクタ名

OEM/ODM独自

ヘリオス

オベロン

オベロン

オベロン

カイバー

真の変化は、来年登場するAMD設計の初のラックスケールシステム「Helios」で実現するでしょう。このシステムは、Zen 6搭載のEPYC「Venice」CPU、CDNA「Next」ベースのInstinct MI400シリーズGPU、そしてPensando「Vulcano」ネットワークインターフェースカード(NIC)を搭載します。これらのNICは、最大スケールアップワールドサイズを8GPU以上に拡張すると噂されており、トレーニングと推論の能力を大幅に向上させます。このシステムはOCP規格に準拠し、Ultra EthernetやUltra Accelerator Linkといった次世代インターコネクトに対応し、要求の厳しいAIワークロードをサポートします。

 「それでは、Helios AIラックをご紹介しましょう」と、AMDのデータセンターGPU事業担当コーポレートバイスプレジデント兼ゼネラルマネージャーであるアンドリュー・ディークマン氏は述べています。「Heliosは、Instinct MI400シリーズGPUをベースに開発中のシステムソリューションの一つで、EPYC CPU、Instinct MI400シリーズGPU、Pensando NIC、そしてROCmスタックを搭載した完全統合型AIラックです。最先端のモデルトレーニングと大規模推論の両方に対応するよう設計された統合アーキテクチャで、リーダーシップを発揮するコンピューティング密度、メモリ帯域幅、スケールアウト型インターコネクトを提供します。これらはすべて、Ultra EthernetとUALinkをサポートするOCP準拠のオープン規格に基づいて構築されています。」 

パフォーマンスの観点から見ると、AMDのフラッグシップモデルであるInstinct MI400シリーズAI GPU(正式名称ではありませんが、ここではInstinct MI400Xと呼称します。また、CDNA NextはCDNA 5とも呼称します)は、Instinct MI355Xの2倍の性能を備え、メモリ容量は50%、帯域幅は100%以上増加しています。MI355Xは10 PFLOPSのFP4密度を達成していますが、MI400Xは20 PFLOPSに達すると予測されています。 

同社によれば、全体として主力製品であるMI400XはMI300Xより10倍も高性能であり、MI400XがMI300Xの約3年後に発売されることを考えると、これは注目すべき進歩だ。 

「当社の製品ロードマップと継続的な加速を見れば、MI355Xは(MI300Xと比較して)大きな飛躍を遂げたと言えるでしょう。幅広いモデルとワークロードにおいて3倍のパフォーマンスを実現しており、これはMI300XからMI325Xへと移行した以前の軌道から大きく向上したと言えます」とディークマンは述べています。「そして今、Instinct MI400XとHeliosによって、この曲線はさらに加速します。Heliosは、ハイエンドの最先端モデルにおいて最大10倍のAIパフォーマンスを実現するように設計されています。」

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

スワイプして水平にスクロールします

2024

2025

2024

2025

2026

2027

建築

CDNA 4

CDNA 5

ブラックウェル

ブラックウェル ウルトラ

ルービン

ルービン

グラフィックプロセッサ

MI355X

MI400X

B200

B300(ウルトラ)

VR200

VR300(ウルトラ)

プロセス技術

N3P

?

4NP

4NP

N3P (3NP?)

N3P (3NP?)

物理構成

レチクルサイズのGPU x 2

?

レチクルサイズのGPU 2個

レチクルサイズのGPU 2個

レチクルサイズのGPU x 2、I/Oチップレット x 2

レチクルサイズのGPU x 4、I/Oチップレット x 2

パッケージ

コウォス-S

?

CoWoS-L

CoWoS-L

CoWoS-L

CoWoS-L

FP4 PFLOP(パッケージあたり)

10

20

10

15

50

100

FP8/INT6 PFLOP(パッケージあたり)

5/-

10/?

4.5

10

?

?

INT8 PFLOPS(パッケージあたり)

5

?

4.5

0.319

?

?

BF16 PFLOP(パッケージあたり)

2.5

?

2.25

5

?

?

TF32 PFLOP(パッケージあたり)

?

?

1.12

2.5

?

?

FP32 PFLOP(パッケージあたり)

153.7

?

1.12

0.083

?

?

FP64/FP64 Tensor TFLOPs(パッケージあたり)

78.6

?

40

1.39

?

?

メモリ

288 GB HBM3E

432 GB HBM4

192 GB HBM3E

288 GB HBM3E

288 GB HBM4

1TB HBM4E

メモリ帯域幅

8 TB/秒

19.6 GB/秒

8 TB/秒

4 TB/秒

13 TB/秒

32 TB/秒

HBMスタック

8

12

6

8

8

16

NVリンク/UAリンク

インフィニティファブリック

UALink、インフィニティファブリック

NVLink 5.0、200 GT/s

NVLink 5.0、200 GT/s

NVリンク 6.0

NVリンク 7.0

SerDes速度(Gb/s単方向)

?

?

224G

224G

224G

224G

GPU TDP

1400ワット

1600W(?)

1200ワット

1400ワット

1800ワット

3600ワット

CPU

128コアのEPYC「Turin」

EPYC「ヴェネツィア」

72コアのGrace

72コアのGrace

88コアのVera

88コアのVera

新しいMI400Xアクセラレータは、現在増強中のNvidiaのBlackwell Ultraを演算性能で上回ります。しかし、50 FP4 PFLOPSを実現するNvidiaの次世代Rubin R200と比較すると、AMDのMI400Xは約2.5倍遅くなります。それでも、AMDにはメモリ帯域幅と容量という切り札があります(詳細は表を参照)。同様に、HeliosはNvidiaのBlackwell UltraベースのNVL72とRubinベースのNVL144を凌駕します。 

しかし、Heliosが実際のアプリケーションでNVL144とどの程度の差をつけるかはまだ分かりません。また、2027年にはコンピューティング性能とメモリ帯域幅の両面でNvidiaのNVL576に勝つのは非常に困難になるでしょうが、その頃にはAMDが何か新しいものを発表する可能性が高いでしょう。

少なくとも、今週開催された「Advancing AI」イベントで AMD が伝えたのは次の内容です。同社は、次世代の GPU、CPU、ネットワーク テクノロジーを搭載した統合 AI プラットフォームを継続的に進化させ、そのロードマップを 2027 年以降まで延長する予定です。

Google ニュースで Tom's Hardware をフォローすると  、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。