59
Nvidia の新しい CPX GPU は AI 推論のゲームを変えることを目指しています。より安価で冷却性に優れた GDDR7 の登場によって…
エヌビディア
(画像提供:Nvidia)

Nvidia のデータセンター GPU は、その高いパフォーマンス、極めて広い帯域幅の HBM の使用、高速なラックスケール相互接続、完成された CUDA ソフトウェア スタックにより、AI のトレーニングと推論のゴールド スタンダードとなっています。しかし、AI がより普及し、モデルが大規模になる (特にハイパースケーラーで) につれて、Nvidia が推論スタックを分散し、専用の GPU を使用して推論のコンテキスト フェーズを高速化することは理にかなっています。コンテキスト フェーズでは、モデルが初期出力を生成するために何百万もの入力トークンを同時に処理する必要がありますが、HBM メモリを搭載した高価で消費電力の大きい GPU は使用しません。今月、同社はこの問題を解決するアプローチとして、Rubin GPU と Vera CPU の横に並べて特定のワークロードを高速化する Rubin CPX (Content Phase aXcelerator) を発表しました。

GDDR7 への移行は、HBM3E や HBM4 よりも大幅に低い帯域幅を提供するにもかかわらず、いくつかの利点をもたらします。消費電力が少なく、GB あたりのコストが大幅に削減され、CoWoS などの高価な高度なパッケージング テクノロジを必要としないため、最終的には製品コストが削減され、製造上のボトルネックが緩和されます。

ロングコンテキスト推論とは何ですか?

現代の大規模言語モデル(GPT-5、Gemini 2、Grok 3など)は、規模が大きく、推論能力も高く、これまでは不可能だった入力を処理できるため、エンドユーザーは広く活用しています。これらのモデルは規模が大きいだけでなく、アーキテクチャ的に拡張されたコンテキストウィンドウを効果的に活用できる能力も向上しています。大規模AIモデルにおける推論は、ますます2つの部分に分割されるようになっています。1つは入力を処理して最初の出力トークンを生成する、計算集約型の初期のコンテキストフェーズ、もう1つは処理されたコンテキストに基づいて追加のトークンを生成するフェーズです。

モデルがエージェントシステムへと進化するにつれ、段階的な推論、タスク間の永続的な記憶、一貫性のあるマルチターン対話、そして拡張された入力に対する計画と修正能力を実現するために、ロングコンテキスト推論が不可欠になります。そうでなければ、これらの機能はコンテキストウィンドウによって制限されてしまうからです。ロングコンテキスト推論が重要になる最も重要な要因は、モデルがそれを実行できるからというだけでなく、ユーザーが大規模なドキュメントやコードベースを分析したり、長編動画を生成したりするためにAIを必要としているからでしょう。

エヌビディア

(画像提供:Nvidia)

この種の推論は、ハードウェアにとって明確な課題を提示します。推論のコンテキストフェーズ(モデルが出力を生成する前に入力全体を読み取り、エンコードするフェーズ)は計算量に大きく依存し、100万トークン以上のコンテキストワークロードを生成するための極めて高い計算スループット、十分なメモリ(ただし、必ずしも十分なメモリ帯域幅である必要はありません)、そして長いシーケンス全体でパフォーマンスを維持するための最適化されたアテンションメカニズム(これはモデル開発者の仕事です)が必要です。従来のデータセンターGPUは十分なオンボードHBMメモリを搭載しており、このようなワークロードを処理できますが、このタスクに使用するのはそれほど効率的ではありません。そのため、Nvidiaはコンテキストフェーズに128GB GDDR7を搭載したRubin CPX GPUを使用する予定です。

第2フェーズでは、モデルは第1フェーズでエンコードされたコンテキストを使用して、出力トークンを1つずつ生成します。このステップはメモリ帯域幅とインターコネクトに大きく依存するため、以前に生成されたトークンとアテンションキャッシュへの高速アクセスが必要です。Blackwell Ultra (B300、288GB HBM3E) や Rubin (288GB HBM4) などの従来のデータセンターGPUは、トークンシーケンスをリアルタイムでストリーミングおよび更新することで、この処理を効率的に実行します。

ルビンCPXに会う

新たな需要に対応するため、Nvidia は長期コンテキスト推論専用のハードウェア、Rubin CPX GPU を設計しました。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Rubin CPXアクセラレータカードは、NVIDIAのRubinアーキテクチャを基盤とし、最大30 NVFP4ペタフロップスの演算スループットを実現します(2つのチップレットを搭載した「大型」Rubin R100が50 NVFP4ペタフロップスを達成することを考えると、これはかなり大きな数値です)。また、128GBのGDDR7メモリを搭載しています。このプロセッサは、速度低下を伴わずにロングコンテキスト推論を実行するために不可欠なハードウェア・アテンション・アクセラレーション(追加の行列乗算ハードウェアを使用)に加え、ビデオ処理と生成のためのビデオエンコードとデコードのハードウェアサポートも備えています。

GDDR7の採用は、Rubin CPX GPUの重要な特徴の一つです。GDDR7はHBM3EやHBM4に比べて帯域幅が大幅に低いものの、消費電力は少なく、GBあたりのコストも大幅に低く、CoWoSなどの高価な高度なパッケージング技術を必要としません。その結果、Rubin CPX GPUは通常のRubinプロセッサよりも安価であるだけでなく、消費電力も大幅に削減され、冷却も簡素化されます。

エヌビディア

(画像提供:Nvidia)

NvidiaのRubin CPX GPUのダイショットをざっと見ると、そのフロアプランはハイエンドグラフィックプロセッサに似ていることがわかります(ヒートスプレッダーさえGB202に似ているほどです)。このASICには確かに16個のグラフィック処理クラスター(GPC)が搭載されており、グラフィックス専用ハードウェア(ラスターバックエンド、テクスチャユニットなど)、巨大なL2キャッシュ、8つの64ビットメモリインターフェース、PCIe、ディスプレイエンジンを備えていると言われています。このチップにはNVLinkのようなインターフェースは搭載されていないようです。そのため、他のチップとの通信はPCIeインターフェースのみで行われているのではないかと推測するしかありません。

Rubin CPX が GR102/GR202 グラフィック プロセッサ (コンシューマー向けとプロフェッショナル向けの両方の次世代グラフィック カードの原動力となる) を採用しているのか、それとも独自の ASIC を採用しているのか、疑問に思うばかりです。一方で、AI 推論アクセラレーションにクライアント グレードの GPU を使用するという考え方は新しいものではありません。GB202 は 4 NVFP4 ペタフロップス (PetaFLOPS) を提供し、GB200 は 10 NVFP4 ペタフロップス (PetaFLOPS) を備えています。一方で、多数の NVFP4 対応 FPU とハードウェア アテンション アクセラレータをグラフィック用 GPU に詰め込むことは、ダイ サイズの観点からは最適な選択ではない可能性があります。しかしその一方で、同様の機能を備えた 2 つのほぼレチクル サイズのプロセッサを 1 つではなくテープアウトすることは、コスト、エンジニアリングの労力、およびタイミングの観点から非効率的である可能性があります。

Rubin CPXは、Rubin GPUおよびVera CPUと連携して動作するVera Rubin NVL144 CPXシステムで動作します。このシステムは、8エクサフロップスのNVFP4性能(「ビッグ」Rubin GPU使用時は3.6エクサフロップス、Rubin CPX GPU使用時は4.4エクサフロップス)と100TBのメモリを1ラックで提供します。Nvidiaの他のラックスケール製品と同様に、Vera Rubin NVL144 CPXは、スケールアウト接続のために、NvidiaのQuantum-X800 InfiniBandまたはSpectrum-XGS Ethernet接続とConnectX-9 SuperNICを組み合わせて使用​​します。

NVIDIAは、Rubin CPXアーキテクチャはVera Rubin NVL144 CPXのフルラック設置に限定されないと述べています。同社は、Vera Rubin NVL144システムに統合するためのRubin CPXコンピュートトレイを提供する予定です。しかし、既存のBlackwell環境では、推論パフォーマンスを最適化するためにRubin CPXトレイを搭載できないようですが、その理由は不明です。

NVIDIAによると、Rubin CPXは導入規模に関わらず、顕著な経済的メリットをもたらすことを目指しています。このプラットフォームへの1億ドルの投資は、トークンベースのAIアプリケーションから最大50億ドルの収益を生み出す可能性があり、これは投資資本の30~50倍の利益率に相当すると同社は主張しています。この主張は、Rubin CPXが推論コストを削減する能力(Rubin CPXはより安価で、フルスペックのR100よりも少ない消費電力であるため)と、実現可能なAIワークロードの範囲を拡大する能力に基づいています。

ソフトウェアの再設計は不要

ソフトウェア面では、Rubin CPXは、CUDA、フレームワーク、ツール、そして実稼働グレードのAIソリューションの導入に必要なNIMマイクロサービスなど、NVIDIAのAIエコシステムによって完全にサポートされています。また、Rubin CPXは、エンタープライズレベルのマルチモーダル推論向けに設計されたNemotronファミリーのモデルもサポートしています。

エヌビディア

(画像提供:Nvidia)

AIモデルや製品の開発者は、Rubin NVL144 CPXラックスケールソリューション上で実行するために、第1および第2の推論フェーズをGPU間で手動で分割する必要がなくなります。代わりに、Nvidiaは、Dynamoソフトウェアオーケストレーションレイヤーを使用して、分散システム内の異なるタイプのGPU間で推論ワークロードをインテリジェントに管理および分割することを提案しています。プロンプトを受信すると、Dynamoは計算負荷の高いコンテキストフェーズを自動的に識別し、高速アテンションと大規模入力処理に最適化された専用のRubin CPX GPUに割り当てます。コンテキストがエンコードされると、Dynamoはシームレスに生成フェーズに移行し、トークンごとの出力生成に適した標準Rubinなどのメモリが豊富なGPUにルーティングします。Nvidiaによると、DynamoはKVキャッシュ転送を管理し、レイテンシを最小限に抑えることができるとのことです。

列をなす顧客

すでにいくつかの企業が Rubin CPX を AI ワークフローに統合することを計画しています。

  • ソフトウェア開発者向けの AI を開発するソフトウェア会社 Cursor は、リアルタイムのコード生成と共同開発ツールをサポートするために Rubin CPX を使用します。
  • Runway は、Nvidia Rubin CPX を使用して、長時間コンテキストのエージェント駆動型ビデオ生成を強化し、個人アーティストから大手スタジオまで、クリエイターが映画コンテンツや視覚効果をより高速、リアル、かつクリエイティブに柔軟に制作できるようにする予定です。
  • 自律コーディングエージェントを開発する AI 研究会社 Magic は、Rubin CPX を使用して 1 億トークンのコンテキスト ウィンドウを持つモデルをサポートし、ドキュメント、コード履歴、ユーザー インタラクションへのフル アクセスをリアルタイムで実現できるようにする予定です。

新しいパラダイム

約10年前のPascalおよびVolta GPU以来、NVIDIAのGPUはCPU向けのAIアクセラレータとして機能してきました。Rubin CPXの登場により、これらのGPUは独自のアクセラレータを搭載するようになりました。NVIDIAは推論の2つの段階(コンテキスト処理とトークン生成)を分離することで、ハードウェアリソースをより的確に活用し、大規模な効率性の向上を実現しています。これは、AIインフラストラクチャを最大効率化するための最適化方法の転換を表しています。

ロングコンテキスト推論処理の最適化は、ハードウェアコストとTCOを削減するだけでなく、数百万トークン規模のワークロードに対応できる高スループット推論プラットフォームを実現します。このようなプラットフォームは、AIを活用したより高度なソフトウェアおよびハードウェアエンジニアリング、さらにはフルレングスの動画生成など、現在実現不可能なAIアプリケーションを可能にする可能性があります。

Nvidia の最初の Rubin CPX 対応プラットフォームである Vera Rubin NVL144 CPX は、2026 年末までに発売される予定です。

Tom's HardwareをGoogleニュースでフォローするか、お気に入りの情報源として追加して、最新のニュース、分析、レビューをフィードで受信しましょう。「フォロー」ボタンを忘れずにクリックしてください!

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。