64
DGX B200 Blackwellノードが世界記録を樹立、ユーザーあたり1,000TPSを超える
GB200 Grace Blackwell Superchip
(画像提供:Nvidia)

Artificial AnalysisがLinkedInに投稿した記事によると、NVIDIAはMetaのLlama 4 Maverick大規模言語モデルを用いて、ユーザーあたり1秒あたり1,000トークン(TPS)の壁を突破し、AIの世界記録を樹立したという。この画期的な成果は、8基のBlackwell GPUを搭載したNVIDIAの最新DGX B200ノードによって達成された。

Nvidiaは、AIチップメーカーSambaNovaのこれまでの記録である792 TPS/ユーザーに対して、1,038 TPS/ユーザーという驚異的なパフォーマンスを達成し、これまでの記録を31%上回りました。Artificial Analysisのベンチマークレポートによると、NvidiaとSambaNovaはこのパフォーマンス指標において他を大きくリードしています。AmazonとGroqは300 TPS/ユーザーにわずかに届かないスコアを記録しました。その他のFireworks、Lambda Labs、Kluster.ai、CentML、Google Vertex、Together.ai、Deepinfra、Novita、Azureはいずれも200 TPS/ユーザーを下回るスコアでした。

ブラックウェル氏の記録破りの結果は、Llama 4 Maverickアーキテクチャ向けにカスタマイズされた、数多くのパフォーマンス最適化によって達成されました。NVIDIAは、TensorRTを用いて広範なソフトウェア最適化を行い、トークンを事前に予測することでLLMの推論を高速化するように設計されたEagle-3技術を用いて投機的デコードドラフトモデルを学習したとされています。この2つの最適化だけで、ブラックウェル氏のこれまでの最高値と比較して4倍のパフォーマンス向上を達成しました。

FP8データ型(BF16ではなく)、Attention演算、そしてDeepSeek R1モデルで初めて導入された際に世界を席巻したMixture of Experts AI技術の活用により、精度も向上しました。NVIDIAは、空間分割やGEMM重みシャッフルといった技術を含む、パフォーマンスをさらに最適化するためにソフトウェアエンジニアがCUDAカーネルに加えた様々な最適化についても公開しました。

TPS/ユーザーとは、ユーザー1人あたりの1秒あたりのトークン数を表すAIパフォーマンス指標です。トークンは、CopilotやChatGPTなどのLLM対応ソフトウェアの基盤です。ChatGPTやCopilotに質問を入力すると、入力された個々の単語や文字がトークンとして扱われます。LLMはこれらのトークンを受け取り、LLMのプログラミングに従ってトークンに基づいた回答を出力します。

TPS/ユーザーのうち、ユーザー部分はバッチ処理ではなく、単一ユーザーに焦点を当てたベンチマークを目的としています。このベンチマーク手法は、AIチャットボット開発者がユーザーエクスペリエンスを向上させるために重要です。GPUクラスターがユーザーあたり1秒あたりのトークン処理速度が速いほど、AIチャットボットの応答速度も速くなります。

Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Aaron Klotz 氏は Tom's Hardware の寄稿ライターであり、CPU やグラフィック カードなどのコンピューター ハードウェアに関するニュースを扱っています。