
AIおよびHPCアプリケーション向けの最新GPUには、デバイスに内蔵された高帯域幅メモリ(HBM)の容量が限られているため、AIなどのワークロードにおけるパフォーマンスが制限されています。しかし、新たな技術により、企業はPCIeバスに接続されたデバイスにメモリを追加することでGPUメモリ容量を拡張できるようになります。GPUに内蔵されたメモリ容量に制限されることなく、SSDを使用してメモリ容量を拡張することも可能です。韓国の著名な研究機関KAISTの支援を受けるPanmnesiaは、CXLメモリエクスパンダーを使用してGPUメモリを拡張できる低レイテンシCXL IPを開発しました。
AIトレーニングにおけるより高度なデータセットのメモリ要件は急速に増大しており、AI企業は新しいGPUを購入するか、それほど高度ではないデータセットを使用するか、パフォーマンスを犠牲にしてCPUメモリを使用するかのいずれかを迫られています。CXLはPCIeリンク上で動作するプロトコルであり、ユーザーはPCIeバスを介してシステムにさらに多くのメモリを接続できますが、この技術はASICとそのサブシステムによって認識される必要があるため、CXLコントローラーを追加するだけでは、特にGPU上でこの技術を動作させるには不十分です。
Panmnesia社は、GPUメモリ拡張のためのCXLの統合において課題に直面しました。これは、GPUにDRAMやSSDエンドポイントをサポートするCXLロジックファブリックとサブシステムが存在しないためです。さらに、GPUキャッシュとメモリサブシステムは、統合仮想メモリ(UVM)以外の拡張を認識しないため、速度が遅くなる傾向があります。
この問題を解決するため、Panmnesiaは、PCIe経由の外部メモリをサポートする複数のルートポート(RP)と、GPUのシステムバスに接続するホスト管理デバイスメモリ(HDM)デコーダーを備えたホストブリッジを備えたCXL 3.1準拠のルートコンプレックス(RC)を開発しました。システムメモリのアドレス範囲管理を担うHDMデコーダーは、GPUのメモリサブシステムにシステムメモリを扱っていると「思わせる」役割を果たしますが、実際にはサブシステムはPCIe接続のDRAMまたはNANDメモリを使用します。つまり、DDR5またはSSDのいずれかを使用してGPUメモリプールを拡張できるということです。
Panmnesiaによると、このソリューション(カスタムGPUをベースとし、CXL-Optと表記)は広範なテストを受け、標準メモリ操作とCXLフリット転送間のプロトコル変換に必要な時間を含め、往復遅延が2桁ナノ秒(SamsungとMetaが開発したプロトタイプ(下図ではCXL-Protoと表記)の場合の250ナノ秒と比較)という結果が出ました。このソリューションは、ハードウェアRTLにおいてメモリエクスパンダーとGPU/CPUプロトタイプの両方に正常に統合されており、様々なコンピューティングハードウェアとの互換性が実証されています。
Panmnesiaによるテストでは、UVMはページフォールト発生時のホストランタイム介入やページレベルでのデータ転送によるオーバーヘッドが原因で、テスト済みのGPUカーネルの中で最もパフォーマンスが悪く、GPUのニーズを超えることがしばしばあります。一方、CXLはロード/ストア命令を介して拡張ストレージに直接アクセスできるため、これらの問題は発生しません。
その結果、CXL-Protoの実行時間はUVMの1.94倍短縮されました。PanmnesiaのCXL-Optは、最適化されたコントローラにより2桁ナノ秒のレイテンシを実現し、読み取り/書き込みレイテンシを最小限に抑えることで、実行時間をさらに1.66倍短縮しました。この傾向は、GPUカーネル実行中に記録されたIPC値を示す別の図からも明らかです。この図から、PanmnesiaのCXL-OptはUVMとCXL-Protoのそれぞれ3.22倍と1.65倍の性能速度を達成していることがわかります。
一般的に、CXLサポートはAI/HPC GPUに大きなメリットをもたらしますが、パフォーマンスについては大きな疑問が残ります。さらに、AMDやNvidiaのような企業が自社のGPUにCXLサポートを追加するかどうかは、まだ不透明です。PCIe接続メモリをGPUに採用するというアプローチが普及すれば、業界の大手企業がPanmnesiaのような企業のIPブロックを採用するのか、それとも独自の技術を開発するのかは、時が経てば明らかになるでしょう。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。