
GTC 2024のPhison社のブースでは、予想外のサプライズがありました。同社は、SSDとDRAMを使用して4つのGPUを搭載した単一のワークステーションのデモを行い、AIワークロードの有効メモリ空間を拡張することで、通常24個のH100 GPUに分散された1.4TBのVRAMを必要とするワークロードを実行できるようにしました。同社の新しいaiDaptiv+プラットフォームは、システムDRAMとSSDを使用してトレーニングに使用できるGPU VRAMの量を増やすことで、AI LLMトレーニングの障壁を下げるように設計されています。Phison社によると、これにより、ユーザーは標準GPUを使用する場合の数分の1のコストで、集中的な生成AIトレーニングワークロードを達成できるようになります。ただし、導入コストが低い代わりに、パフォーマンスが低下し、トレーニング時間が長くなります。
このタイプの導入を利用する企業にとってのメリットは、コストを削減し、業界を悩ませ続けている深刻なGPU不足を回避できること、そしてオンプレミスでトレーニングするオープンソースモデルを利用できるため、機密性の高い個人データを社内で管理できることです。Phison社とそのパートナー企業は、LLMの全体的なトレーニング時間をそれほど気にせず、市販のトレーニング済みモデルを自社のプライベートデータセットでトレーニングすることでメリットを享受できる中小企業やその他のユーザーをこのプラットフォームの対象としています。
画像
1
の
6

同社のデモは、この技術の強力な実証例となり、4基のNvidia RTX 6000 Ada A100 GPUを搭載した単一のワークステーションで700億パラメータのモデルを実行しました。AIモデルは規模が大きいほど精度が高く、より良い結果が得られますが、Phison社の推定によると、この規模のモデルでは通常、サーバーラック内の6台のサーバーに分散された24基のAI GPUに約1.4TBのVRAMが必要となり、さらに必要なネットワークとハードウェアもすべて必要になります。
PhisonのaiDaptiv+ソリューションは、AIモデルの計算処理が行われていないレイヤーをVRAMから「切り出し」、システムDRAMに送信するミドルウェアソフトウェアライブラリを使用します。データは、すぐに必要になった場合はDRAMに残し、優先度が低い場合はSSDにフラッシュすることができます。その後、データは必要に応じてGPU VRAMに呼び出され、計算タスクのために再びGPU VRAMに移動されます。その際、新しく処理されたレイヤーはDRAMとSSDにフラッシュされ、次のレイヤーの処理のためのスペースが確保されます。
Phison社は、Maingear社の新型Pro AIワークステーションを用いてデモを実施しました。このデモシステムは、Xeon w7-3435Xプロセッサ、512GBのDDR5-5600メモリ、そして2TBのPhison専用SSD 2台を搭載しています(詳細は後述)。価格はGPU 1基搭載の28,000ドルから、GPU 4基搭載の60,000ドルまで、様々な価格帯で提供されています。当然ながら、これは必要なネットワーク機能をすべて備えたGPUトレーニングサーバーを6台または8台構築するのに必要な金額のほんの一部です。さらに、これらのシステムは15Aの単一回路で動作しますが、サーバーラックを構築するにははるかに堅牢な電気インフラが必要です。
Maingear は、新しいプラットフォームにおける Phison の主要ハードウェア パートナーですが、同社には MSI、Gigabyte、ASUS、Deep Mentor など、新しいプラットフォーム向けのソリューションを提供する他の多くのパートナーもいます。
画像
1
の
3

Phisonの新しいaiDaptiveCache ai100E SSDは、標準的なM.2フォームファクターを採用していますが、キャッシュワークロード向けに特別に設計されています。PhisonはこれらのSSDの詳細をまだ公開していませんが、SLCフラッシュを採用することでパフォーマンスと耐久性の両方を向上させていることは分かっています。これらのドライブは、5年間で1日あたり100回のドライブ書き込みに耐えられると評価されており、標準的なSSDと比較して非常に高い耐久性を誇ります。
画像
1
の
13

上記のスライドでご覧いただけるように、aiDaptive+ミドルウェアはPytorch/Tensor Flowレイヤーの下に配置されています。Phison社によると、このミドルウェアは透過的であり、AIアプリケーションに変更を加える必要はありません。
このようなトレーニングセッションを単一のワークステーションで実行すれば、コストは大幅に削減されますが、パフォーマンスは犠牲になります。Phison社は、この単一のセットアップで、8ノードに30基のGPUを分散配置した大規模モデルのトレーニングコストを6分の1に抑えられると予測していますが、モデルのトレーニング時間はおよそ4倍になります。同社はまた、4ノードを結合して半分強のコストで実行できるスケールアウトオプションも提供しており、これにより70Bモデルのトレーニング時間が、30GPUシステムでは0.8時間かかるのに対し、1.2時間に短縮されるとしています。
この動きは、SSDコントローラとリタイマーの開発という従来の標準モデルから、AI LLMトレーニングのアクセシビリティを向上させる新しいハイブリッドソフトウェア/ハードウェアソリューションの提供へとPhisonが事業を拡大することを示しています。これにより、ソリューション全体のコストが大幅に削減されます。Phisonは、この新しいソフトウェアに対応したシステムを市場に投入するパートナーを多数抱えており、今後数か月以内にさらなる発表が期待されます。これまでと同様に、パフォーマンスの実証はサードパーティのベンチマークで行われますが、システムがPhisonの顧客に提供され始めているため、実世界での導入例が見られるのもそう遠くないかもしれません。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
ポール・アルコーンはTom's Hardware USの編集長です。CPU、ストレージ、エンタープライズハードウェアに関するニュースやレビューも執筆しています。