
言語モデルの複雑さが増し、コンテキストウィンドウが拡大するにつれて、GPU接続の高帯域幅メモリ(HBM)がボトルネックとなり、システムはオンボードHBMに収まらなくなったデータを繰り返し再計算する必要に迫られます。Blocks and Files誌によると、PliopsはXDP LightningAIデバイスとFusIOnXソフトウェアでこの課題に対処しました。これらのデバイスは、事前計算済みのコンテキストを高速SSDに保存し、必要に応じて瞬時に取得します。同社によると、このソリューションは「ほぼ」HBMに近い速度を実現し、特定の推論ワークフローを最大8倍高速化できるとのことです。
推論中、言語モデルはキーバリューデータを生成・参照することでコンテキストを管理し、長いシーケンス間の一貫性を維持します。通常、この情報はGPUのオンボードメモリに保存されますが、アクティブなコンテキストが大きくなりすぎると、古いエントリが破棄され、それらのエントリが再び必要になった場合にシステムは計算をやり直す必要が生じ、レイテンシとGPU負荷が増加します。こうした冗長な操作を排除するため、PliopsはXDP LightningAIマシンによって実現される新しいメモリ層を導入しました。XDP LightningAIマシンは、GPUと数十台の高性能SSD間のキーバリューデータの移動を管理するPCIeデバイスです。
このカードは、カスタム設計のXDP ASICとFusIOnXソフトウェアスタックを搭載し、読み書き操作を効率的に処理します。また、vLLMやNvidia DynamoなどのAIサービングフレームワークと統合されています。GPUに依存せず、スタンドアロンとマルチGPUサーバーの両方のセットアップをサポートします。マルチノード展開では、異なる推論ジョブやユーザー間でのキャッシュデータのルーティングと共有も処理し、大規模なコンテキストの永続的な再利用を可能にします。
このアーキテクチャにより、AI推論システムはGPUハードウェアを拡張することなく、より長いコンテキスト、より高い同時実行性、そしてより効率的なリソース利用をサポートできます。Pliopsによると、追加のGPUによってHBMメモリを拡張する代わりに(スケールアップ可能なワールドサイズ、つまり互いに直接接続されるGPUの最大数は限られていることに留意してください)、システムはより多くのコンテキスト履歴をより低コストで、ほぼ同じパフォーマンスで保持できるようになります。その結果、要求の厳しい状況下でも安定したレイテンシで大規模モデルを提供することが可能になり、AIインフラストラクチャの総所有コストを削減できます。
理論上は、24 個の高性能 PCIe 5.0 SSD でも 336 GB/秒の帯域幅しか提供されず、H100 の 3.35 TB/秒と比較するとメモリ帯域幅が大幅に少なくなりますが、データを繰り返し再計算する必要がないため、XDP LightningAI デバイスと FusIOnX ソフトウェアを搭載していないシステムと比較して、パフォーマンスが大幅に向上します。
Pliops によれば、同社のソリューションは、一般的な vLLM 展開のスループットを 2.5 ~ 8 倍向上させ、GPU ハードウェア要件を増やすことなく、システムが 1 秒あたりに処理できるユーザー クエリの数を増やすことを可能にします。
Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。