Samsung、HBM2、GDDR6、DDR4、LPDDR5X向けインメモリ処理のデモを実施

サムスンの思惑が実現すれば、将来のデスクトップPC、ラップトップ、GPUに搭載されるメモリチップは、自ら考えるようになるだろう。Hot Chips 33において、サムスンはHBM2チップに加え、DDDR4モジュール、GDDR6、LPDDR5Xにもメモリインプロセッシング技術を拡張すると発表していた。今年初めには、AIワークロード向けに最大1.2TFLOPSの演算能力を持つプロセッサを統合したHBM2メモリを発表しており、これにより通常はCPU、GPU、ASIC、FPGAでしか実行できない演算をメモリ自体で実行できるようになった。本日、このチップのさらなる進歩が発表されたが、サムスンは次世代HBM3という、より強力な派生モデルもロードマップに載せている。アップスケーリングなどのAIベースのレンダリング技術の台頭を考えると、この技術がゲーミングGPUにも採用される可能性もある。

本日の発表では、Aquabolt-XL HBM2メモリの正式ブランドが発表され、さらに、コンピューティングパワーを内蔵したAXDIMM DDR4メモリとLPDDR5メモリも公開されました。最初のHBM-PIM（Processing-In-Memory）チップの詳細については、こちらで取り上げました。簡単に言うと、これらのチップは各DRAMバンク内にAIエンジンを搭載しています。これにより、メモリ自体がデータを処理できるため、システムはメモリとプロセッサ間でデータを移動する必要がなくなり、時間と電力の両方を節約できます。もちろん、現在のメモリタイプではこの技術に容量のトレードオフがありますが、SamsungはHBM3および将来のメモリは通常のメモリチップと同じ容量になると発表しています。

画像

の

SamsungのAquabolt-XL HBM-PIMは、同社の製品スタックに直接組み込むことができ、標準のJEDEC準拠HBM2メモリコントローラーと連携するため、標準HBM2メモリとの互換性があります。Samsungは最近、カードに変更を加えることなく、HBM2メモリを標準のXilinx Alveo FPGAに交換することで、システムパフォーマンスを2.5倍向上させ、消費電力を62%削減するというデモを行いました。

SamsungのPIM技術は既に標準的なメモリコントローラと互換性がありますが、CPUベンダーによるサポート強化により、一部のシナリオ（処理要素を最大限に活用するために必要なスレッド数が少ないなど）でパフォーマンスが向上します。Samsungは、将来の製品への搭載に向けて、匿名のCPUベンダーとHBM2-PIMをテストしていると発表しました。もちろん、対象となるCPUベンダーはx86系でもArm系でも、数多く存在する可能性があります。IntelのSapphire Rapids、AMDのGenoa、ArmのNeoverseプラットフォームはすべてHBMメモリをサポートしています（他にもHBMメモリはあります）。

画像

の

当然のことながら、SamsungのPIM技術はデータセンターに適しています。これは主に、音声認識のように計算負荷が高くないメモリ依存のAIワークロードに最適であるためです。しかし、同社はこの技術がより標準的な環境に移行することも想定しています。そのため、同社はバッファチップ内で処理を行う新しいアクセラレーションDIMMプロトタイプであるAXDIMMのデモも行いました。HBM2チップと同様に、標準のTensorFlowとPythonコードを使用してFP16処理を実行できますが、Samsungは他の種類のソフトウェアへのサポート拡張にも熱心に取り組んでいます。Samsungによると、このDIMMタイプはLRDIMMまたはUDIMMのいずれかを搭載したDDR4搭載サーバーに搭載でき、DDR5のサポートも順次提供されると予想されます。

同社によると、FacebookのAIワークロードで実施したテストでは、2ランクキットでパフォーマンスが1.8倍向上し、消費電力が42.6%削減され、テールレイテンシが70%削減されたとのことです。これはいずれも非常に印象的な結果であり、特にサムスンがDIMMを標準サーバーに改造なしで接続したという事実を考慮すると、なおさらです。サムスンはすでに顧客のサーバーでこの技術をテストしており、近い将来に市場投入されると期待されます。

画像

の

SamsungのPIM技術は、同社のあらゆるメモリプロセスや製品に応用可能であり、LPDDR5チップにPIMメモリを搭載した実験も開始しています。つまり、将来的にはノートパソコン、タブレット、さらにはスマートフォンにも搭載される可能性があるということです。Samsungはこの技術をまだシミュレーション段階にとどまっていますが、LPDDR5X-6400チップのシミュレーションテストでは、音声認識ワークロードのパフォーマンスが2.3倍、トランスフォーマーベースの翻訳が1.8倍、GPT-2テキスト生成が2.4倍向上したと報告されています。これらのパフォーマンス向上に加え、消費電力はそれぞれ3.85倍、2.17倍、4.35倍削減されています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

この技術は急速に発展しており、標準的なメモリコントローラや既存のインフラストラクチャで動作しますが、JEDEC標準化委員会による認定はまだ受けていません。これは、サムスンが広く普及する前に乗り越えなければならない重要なハードルです。しかし、同社は初期のPIM仕様が今年後半にHBM3規格に採用されることを期待しています。

HBM3について、SamsungはHBM2のFP16 SIMD処理からHBM3のFP64へと進化させると発表しており、チップの機能が拡張されることを意味します。FP16とFP32はデータセンター向けに予約され、INT8とINT16はLPDDR5、DDR5、GDDR6セグメントに使用されます。

さらに、HBM2 PIM の計算能力が必要な場合は 8GB チップの容量の半分を失うことになりますが、将来的にはこのような容量のトレードオフはなくなります。チップは計算能力に関係なく完全な標準容量を持つようになります。

Samsungは、GDDR6などの他の種類のメモリにもこの機能を導入し、用途を拡大する予定です。CXLのサポートも間もなく開始される可能性があります。Samsungによると、Aquabolt-XL HBM2チップは現在購入および統合可能であり、他の製品はすでに開発パイプラインを進めています。

AIベースのアップスケーリングとレンダリング技術の台頭により、この技術は表面的に見える以上に、愛好家にとってゲームチェンジャーとなる可能性を秘めています。将来的には、GPUメモリが計算ワークロードの一部を処理することで、GPUパフォーマンスを向上させ、消費電力を削減できるようになる可能性も十分に考えられます。

画像

の