
TrendForceのEconomic Daily NewsとMoneyDJを引用したレポートによると、NVIDIAはAIおよびHPCアプリケーション向けに、今後発売予定のBlackwell B300 GPUの少なくとも一部にソケット設計を採用することを検討しているという。同社はコードネーム「GB300」と呼ばれる製品にこの新しいソケット設計を採用すると伝えられているが、現時点ではその情報は控えめに言っても説得力に欠ける。しかし、サプライチェーンの動向を考えると、少なくとも検討する価値はあるだろう。
MoneyDJ は、高負荷時の AI GPU の故障率、マザーボードの交換コスト、冷却の課題を考慮すると、Nvidia やその他の AI GPU 設計者は、次世代 GPU では GPU をマザーボードにはんだ付けするのではなく、ソケット設計の使用を検討する可能性があると報告しています。
EDNは、CLSAのアナリストであるChen Shuowen氏の発言を引用し、サプライチェーンの調査結果に基づき、NVIDIAは自社製品向けのGPUソケットの設計を進めており、おそらくGB200 Ultraから設計を開始するだろうと述べています。Chen氏は、1つのNVIDIA CPUを搭載した4ウェイのNVIDIA GPU設計について言及したと報じられています。どちらの報道にもGB300という名称は記載されていないため、TrendForceが何らかの情報に基づいてこの部分を追加したと考えられます。
1 つの CPU マザーボードに 4 ウェイ Blackwell GPU が搭載されているのは、DGX サーバーでは 8 ウェイ GPU ベースボードと 2 ウェイ CPU マザーボードが搭載されていることを考えると、特別なことではありませんが、このようなデザインは素晴らしいと感じます。
NVIDIAのデータセンター命名法では、同社のGPUプラットフォーム(A100、H100、B100/B200)とGrace CPU + GPUプラットフォーム(GH100、GB200)が区別されています。現時点では、GB200プラットフォームはCPUとGPUの両方にBGAパッケージを使用しています。B200 Ultraのリフレッシュ、特に今年後半に予定されているGB200 Ultraのリフレッシュで何か変更が必要になるかどうかは不明です。
標準的なCPUソケットは、修理やアップグレードが容易なため、誰もが愛用しています。しかし、サーバーでは、BGAパッケージやSXM/OAMモジュールよりも多くのスペースを占有し、電力と熱の制約も大きくなります。モジュールは修理性に優れていますが、マザーボードの設計によって手順が異なる場合があり、OAM/SXMモジュールの取り外しには慎重な取り扱いが必要なため、ソケットほど優れたソリューションとは言えません。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
もう一つ指摘しておきたい点があります。アドインカード、SXM、OAMモジュールは製造が難しく、コストも高く、現状ではNvidia SXMモジュールのほとんどはFoxconn製です。カードやモジュールからソケットへの移行はコストを削減しますが、パフォーマンスは制限されます。
ブラックウェルハードウェアの可能性
ソケット GPU を搭載した、Blackwell ベースのデータセンター製品 (GB300、GB200 Ultra など) に移る前に、Nvidia がすでに導入している Blackwell ベースのデータセンター GPU を思い出してみましょう。
Nvidiaは既にB200 GPU(1,000W+)を正式に発表しており、これはGB200ボード(コードネームBianca、Grace CPU 1基とBlackwell GPU 2基、またはAriel、Ariel CPU 1基とBlackwell GPU 1基を搭載)に搭載され、BGAフォームファクタで提供される予定です。さらにNvidiaは、8基のB200(1000W)およびB100(700W)SXMモジュールフォームファクタをサポートするUmbriel GPUボードも提供しています。さらに、SemiAnalysisによると、Miranda(パフォーマンス向上(高TDP)、PCIe 6.0、800Gネットワーク対応)およびOberon(コードネーム)のGB200プラットフォームも存在します。
従来のサーバーで提供される標準的な電力および熱予算に収まるようにパフォーマンスを下げた Nvidia H100 や H200 アドイン カード (Hopper アーキテクチャに基づく) はありますが、Nvidia は Blackwell ベースの GPU を搭載したアドイン カードを発表したことはありません。
しかし、非公式情報によると、NVIDIAはモノリシックB102プロセッサをベースに、TSMCのCoWoS-Sパッケージング技術を用いて接続された4つのHBM3Eメモリスタックを搭載したコードネームB200A製品を準備しているようです。これは、TSMCのCoWoS-Lパッケージング技術を用いてパッケージングされ、さらに8つのHBM3Eメモリスタックに接続されるデュアルダイB100/B200設計とは対照的です。
B200Aはシングルダイ製品であり、パフォーマンスの頂点を目指した設計ではないため、複数のフォームファクターを採用する可能性があります。これには、SXMモジュラー設計(特に中国仕様のB20)やアドインカードフォームファクターが含まれます。ソケット型になる可能性はあるでしょうか?おそらくそうでしょう。その点については検討が必要です。IntelはHBMを搭載したソケット型Xeon CPU Max 9480「Sapphire Rapids」を開発しましたが、一部のスーパーコンピューティング用途以外では成功しませんでした。Nvidiaも同様のものを開発するのでしょうか?検討が必要です。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。