55
Nvidiaが支援するスタートアップ企業が、AIの強化に役立つイーサネットメモリプールを発明。大規模推論ワークロード向けに最大18TBのDDR5容量を追加し、トークン生成コストを最大50%削減できるとしている。
エンファブリカ
(画像提供:Enfabrica)

RAM容量は多くのAIアプリケーションにとってボトルネックとなる傾向がありますが、ホストシステムへのメモリ追加は不可能であったり複雑であったりする場合があります。そこで、NVIDIAの支援を受けるスタートアップ企業であるEnfabricaは、イーサネット接続を介してあらゆるサーバーにテラバイト単位のDDR5メモリを追加できるEmfasysシステムを開発しました。このイーサネットシステム上のメモリプールは、大規模な推論ワークロード向けに設計されており、現在、一部のクライアントでテストされています。

EnfabricaのEmfasysシステムは、同社のACF-S SuperNICをベースにしたラック互換システムで、3.2Tb/s(400GB/s)のスループットを実現します。CXLスロットを搭載することで、最大18TBのDDR5メモリを接続できます。メモリプールには、4ウェイおよび8ウェイGPUサーバーから、標準の400Gまたは800Gイーサネットポートを介して、RDMA over Ethernet(RDMA over Ethernet)経由でアクセスできます。そのため、EmfasysシステムはほぼすべてのAIサーバーにシームレスに追加できます。

エンファブリカ

(画像提供:Enfabrica)

GPUサーバーとEmfasysメモリプール間のデータ移動はRDMAを使用して行われます。RDMAは、CXL.memプロトコルを使用することで、CPUの介入なしに、ゼロコピーで低レイテンシ(マイクロ秒単位)のメモリアクセスを可能にします。もちろん、Emfasysメモリプールにアクセスするには、サーバーにメモリ階層化ソフトウェア(転送遅延などをマスクする)が必要です。このソフトウェアはEnfabricaが提供または有効化しています。このソフトウェアは既存のハードウェアおよびOS環境で動作し、広く普及しているRDMAインターフェースを基盤としているため、プールの導入は非常に容易で、アーキテクチャの大幅な変更は必要ありません。

エンファブリカ

(画像提供:Enfabrica)

EnfabricaのEmfasysは、ますます長くなるプロンプト、大きなコンテキストウィンドウ、あるいは複数のエージェントを使用する現代のAIユースケースにおける、増大するメモリ要件に対応することを目的としています。これらのワークロードは、GPU接続型HBMに大きな負荷をかけますが、HBMは容量が限られており、コストも高額です。外部メモリプールを使用することで、データセンター事業者は個々のAIサーバーのメモリを柔軟に拡張することができ、前述のシナリオにおいて理にかなっています。

Emfasysメモリプールを利用することで、AIサーバーの所有者は、コンピューティングリソースの有効活用、高価なGPUメモリの無駄の削減、そして全体的なインフラコストの削減により、効率性を向上させることができます。Enfabricaによると、この設定により、高回転・長時間コンテキストのシナリオにおいて、AI生成トークン1個あたりのコストを最大50%削減できます。また、トークン生成タスクをサーバー間でより均等に分散できるため、ボトルネックも解消されます。

「AI推論には、メモリ帯域幅のスケーリング問題とメモリマージンのスタッキング問題があります」と、EnfabricaのCEOであるロチャン・サンカー氏は述べています。「推論が会話型からエージェント型へ、忘却型から記憶型へと進化するにつれ、現在のメモリアクセスのスケーリング方法は通用しなくなります。私たちは、弾力性のあるラックスケールのAIメモリファブリックを構築し、これまでにない方法でこれらの課題を解決するためにEmfasysを開発しました。お客様は、私たちと提携して、GenAIワークロード向けに、はるかにスケーラブルなメモリ移動アーキテクチャを構築し、トークンエコノミクスをさらに向上させることに期待を寄せています。」

Emfasys AIメモリファブリックシステムと3.2 Tb/s ACF SuperNICチップは現在、一部のお客様による評価とテスト中です。一般提供開始の予定時期は不明です。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Enfabrica は Ultra Ethernet Consortium (UEC) の顧問メンバーとして積極的に活動しており、Ultra Accelerator Link (UALink) Consortium に貢献しています。これは同社の方向性を示すものです。

Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。

アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。