
数万、あるいは数十万のプロセッサを搭載したAIスーパーコンピュータについて書く場合、通常はNVIDIAのHopper GPUまたはBlackwell GPUを搭載したシステムを指します。しかし、AI向け超高負荷スーパーコンピュータの開発に取り組むのはNVIDIAだけではありません。Amazon Web Servicesは今週、Trainium2プロセッサを数十万個搭載し、AI向けに約65エクサフロップスの性能を実現するマシンを開発中であると発表しました。同社はまた、Trainium2の4倍の性能を実現するTrainium3プロセッサも発表しました。
AWS Trainium2は、Amazonの第2世代AIアクセラレータであり、基盤モデル(FM)と大規模言語モデル(LLM)向けに設計され、AmazonのAnnapurna Labsによって開発されました。このユニットは、2つのコンピューティングタイル、4つのスタックを使用した96GBのHBM3、そしてパッケージの均一性を保つための2つの静的チップレットを備えたマルチタイルシステムインパッケージです。AWSが昨年Trainium2を発表した際、具体的なパフォーマンス数値は公表されていませんでしたが、Trn2インスタンスは最大10万プロセッサまで拡張可能で、AI向けに65エクサフロップスの低精度コンピューティング性能を提供できると述べていました。これは、1つのチップで最大650テラフロップスを実現できることを意味します。しかし、これは控えめな見積もりだったようです。
AWS は re:Invent 2024 カンファレンスで、Trainium2 関連の 3 つの発表を行いました。
まず、AWS Trainium2 ベースの Amazon Elastic Compute Cloud (Amazon EC2) EC2 Trn2 インスタンスが一般提供を開始しました。これらのインスタンスは、NeuronLink 相互接続で相互接続された 16 基の Trainium2 プロセッサを搭載し、最大 20.8 FP8 PetaFLOPS の性能と、ピーク帯域幅 46 TB/s の 1.5 TB の HBM3 メモリを備えています。これは、Trainium2 1 基あたり最大 1.3 PetaFLOPS の AI 向け FP8 性能を提供することを意味しており、これは昨年議論された数値の 2 倍に相当します。AWS がプロセッサ性能を最適化する方法を見つけたのか、あるいは以前は FP16 の数値を引用していたのかはわかりませんが、1.3 PetaFLOPS の FP8 性能は、Nvidia H100 の FP8 性能 1.98 PetaFLOPS (スパース性なし) に匹敵します。
次に、AWSは64個の相互接続されたTrainium2チップを搭載したEC2 Trn2 UltraServerを構築しています。このサーバーは、83.2 FP8ペタフロップスの性能と、ピーク帯域幅185TB/秒の6TB HBM3メモリを備えています。これらのマシンは、相互接続に12.8TB/秒のElastic Fabric Adapter (EFA)ネットワークを使用しています。
最後に、AWSとAnthropicは、Trn2 UltraServersで構成される巨大なEC2 UltraCluster(コードネーム:Project Rainier)を構築しています。このシステムは、数十万基のTrainium2プロセッサを搭載し、Anthropicが現在SonnetやOpusといった主要AIモデルのトレーニングに使用しているエクサフロップス性能の5倍に相当します。このマシンは、第3世代の低レイテンシ、ペタビット規模のEFAネットワークと相互接続される予定です。
AWS は、EC2 UltraCluster が使用する Trainium2 プロセッサの数を明らかにしていませんが、Trn2 インスタンスの最大スケーラビリティが 100,000 プロセッサであると仮定すると、約 130 FP8 ExaFLOPS のパフォーマンスを備えたシステムになることが示唆されます。これは非常に大規模で、約 32,768 個の Nvidia H100 プロセッサに相当します。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
「Trainium2は、トレーニングと推論の両方において、最大規模かつ最先端の生成AIワークロードをサポートし、AWS上で最高の価格性能比を実現するために特別に設計されています」と、AWSのコンピューティングおよびネットワーキング担当バイスプレジデントであるDavid Brown氏は述べています。「数兆個に迫るパラメータを持つモデルでは、お客様がこれらの大規模なワークロードをトレーニングおよび実行するための斬新なアプローチを必要としていることを私たちは理解しています。新しいTrn2 UltraServerは、AWS上で最速のトレーニングおよび推論パフォーマンスを提供し、あらゆる規模の組織が世界最大級のモデルをより迅速かつ低コストでトレーニングおよび展開できるよう支援します。」
さらに、AWS は次世代の Trainium3 プロセッサを発表しました。これは TSMC の 3nm クラスのプロセス技術で製造され、従来品よりも高いパフォーマンスを提供し、2025 年に AWS の顧客向けに提供開始される予定です。Amazon は、Trn3 UltraServer が Trn2 UltraServer よりも 4 倍高速になり、プロセッサ数が 64 のままであればマシンあたり 332.9 FP8 PetaFLOPS、プロセッサあたり 5.2 FP8 PetaFLOPS を達成すると予想しています。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。