49
Nvidia、H100で推論性能が2倍になったと主張
エヌビディア
(画像提供:Nvidia)

NVIDIAは、同社の新しいオープンソースソフトウェア「TensorRT-LL」が、同社のGPU上で大規模言語モデル(LLM)の性能を劇的に向上させると発表しました。同社によると、TensorRT-LLの機能により、60億パラメータのGPT-J LLMにおいて、H100コンピューティングGPUの性能が2倍に向上したとのことです。重要なのは、このソフトウェアがモデルの再学習なしにこの性能向上を実現できる点です。

NVIDIAは、LLM推論の高速化を目的にTensorRT-LLMを開発しました。NVIDIAが提供するパフォーマンスグラフでは、適切なソフトウェア最適化により、H100で2倍の速度向上が示されています。NVIDIAのTensorRT-LLMの特に際立った特徴は、革新的なインフライトバッチ処理技術です。この手法は、計算要求が大きく変動するLLMの動的かつ多様なワークロードに対応します。 

エヌビディア

(画像提供:Nvidia)

Nvidiaによると、TensorRT-LLMはディープラーニングコンパイラと最適化されたカーネル、前処理・後処理、マルチGPU/マルチノード通信プリミティブを統合し、GPU上でより効率的に実行できるという。この統合は、モジュラーPython APIによってさらに補完され、開発者にとって使いやすいインターフェースを提供することで、複雑なプログラミング言語を深く理解することなく、ソフトウェアとハ​​ードウェアの機能をさらに拡張できる。例えば、MosaicMLはTensorRT-LLMに必要な特定の機能をシームレスに追加し、推論サービスに統合している。 

「TensorRT-LLMは使いやすく、トークンのストリーミング、インフライトバッチ処理、ページングアテンション、量子化など、豊富な機能を備え、効率的です」と、Databricksのエンジニアリング担当バイスプレジデント、Naveen Rao氏は述べています。「NVIDIA GPUを使用したLLMサービスにおいて最先端のパフォーマンスを提供し、コスト削減をお客様に還元できます。」

エヌビディア

(画像提供:Nvidia)

NVIDIAのH100 GPUとTensorRT-LLMを組み合わせた場合のパフォーマンスは驚異的です。NVIDIAのHopperアーキテクチャにおいて、H100 GPUとTensorRT-LLMを組み合わせると、A100 GPUの8倍のパフォーマンスを発揮します。さらに、Metaが開発したLlama 2モデルのテストでは、TensorRT-LLMはA100 GPUと比較して推論性能が4.6倍向上しました。これらの数値は、AIと機械学習の分野におけるこのソフトウェアの革新的な可能性を強く示しています。

最後に、H100 GPUはTensorRT-LLMと併用することでFP8形式をサポートします。これにより、モデルの精度を損なうことなくメモリ消費量を削減できるため、予算やデータセンターのスペースが限られており、LLMのチューニングに十分な数のサーバーを設置できない企業にとって大きなメリットとなります。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。