
キオクシアは、64GB/秒の帯域幅を実現する5TBの高帯域幅フラッシュメモリモジュールのプロトタイプを開発しました。これは基本的にGPU向けのNANDベースメモリです。HBMと比較して、高帯域幅フラッシュ(HBF)はHBMのコンセプトをNANDフラッシュに適用したもので、DRAMベースのHBMの8~16倍の容量を提供します。高速性と永続ストレージを組み合わせることで、HBFは大規模なAIデータセットへの効率的なアクセスと省電力化を実現します。キオクシアが64GB/秒まで高速化したこれらのHBFモジュールの一つが、この機能を実現しています。
「フラッシュストレージ」と聞くと、まず容量、次に速度を思い浮かべる人が多いでしょう。今日最速のPCIe 5.0 SSD(Samsungの9100 Proのような14GB/秒クラスのドライブ)でさえ、現代のGPUやCPUの帯域幅需要には到底及びません。Kioxiaの新しいプロトタイプは、この期待を覆します。単一のフラッシュモジュールで5TBの容量とPCIe 6.0経由で64GB/秒の持続帯域幅を提供します。これは、現在出荷されている最速のPCIe 5.0ドライブの4倍以上の速度であり、HBM2Eのスタックあたりのスループットに迫るものです。
PAM4(4値パルス振幅変調)は、従来のNRZ信号方式と比較してシンボルあたりのデータレートが2倍になりますが、ノイズやビットエラーの影響を受けやすくなります。Kioxiaは、信号の整合性を維持するために、イコライゼーション、エラー訂正、そしてより強力なプリエンファシスを採用しています。これはPCIe 6.0自体の要件に似ています。
これは、ホストインターフェースとしてPCIe 6.0が採用された理由を説明しています。PCIe 6.0のx16レーンは、理論上、双方向で約128GB/秒の速度を処理できます。Kioxiaの目標である64GB/秒は、その限界の半分弱であり、バスを限界まで使用することなく、エラー訂正とオーバーヘッドに十分な余裕を残しています。
ご想像のとおり、レイテンシが主なトレードオフです。HBMメモリは数百ナノ秒単位で動作し、まるでGPUレジスタの拡張版のようです。一方、NANDフラッシュは、高度なコントローラを搭載していてもデータアクセスに数十マイクロ秒かかり、桁違いに遅いです。Kioxiaは、積極的なプリフェッチとコントローラレベルのキャッシュによってこの問題に対処し、シーケンシャルワークロードへの影響を軽減しています。NANDがDRAMと同等の速度になるわけではありませんが、その差は十分に縮まっており、ストリーミングデータセット、AIチェックポイント、大規模グラフ分析といった用途では、レイテンシよりも帯域幅が重要になります。
電力も重要な要素です。Kioxiaはモジュールあたり40W以下を謳っており、これは従来のGen5 SSDが約14GB/秒で最大15Wを消費することを考えると、非常に魅力的です。1ワットあたりのGB/秒で見ると、このモジュールは劇的に効率が高いと言えます。これは、ハイパースケールラックでは数百台のドライブで簡単に数キロワットを消費するため、重要です。H100クラスターのおかげで既に電力予算が膨れ上がっているAIデータセンターでは、ストレージ層で節約される電力を無駄にする必要はありません。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
これらのモジュールは、新たなシステム設計の選択肢も開拓します。デイジーチェーン接続されたコントローラでは、モジュールを追加しても帯域幅が消費されないため、パフォーマンスは容量に比例して向上します。16個のモジュールを組み合わせれば、80TBのフラッシュメモリと1TB/sを超えるスループットを実現できます。これはかつて並列ファイルシステムやDRAMスクラッチパッドでしか実現できなかった数値です。これにより、ストレージをバックエンドI/Oに縛られることなく、アクセラレータと並んでPCIeファブリック上に直接配置し、メモリに近いものとして扱うことが可能になります。
キオクシアが帯域幅を大量に消費するフラッシュメモリに進出するのは今回が初めてではない。同社はこれまで、長距離PCIe SSDやGPUピアツーピア・フラッシュリンクの実験を行っており、NVIDIAと共同で1,000万IOPS向けに最適化されたXLフラッシュメモリの研究も進めてきた。これらの取り組みに加え、2028年までにフラッシュメモリの需要がほぼ3倍になるとの予測に基づき、新たに発表された日本の工場拡張計画も踏まえると、このプロトタイプが単発の製品ではないことは明らかだ。これは、NANDが単に大容量化するだけでなく、より高速化し、コンピューティングスタックに近接して配置できるほど高速化していくロードマップを示唆していると言えるだろう。
現時点では、このモジュールはまだプロトタイプ段階にあり、未解決の疑問がいくつか残っています。例えば、混合ランダムワークロードをどのように処理するのか、ECCスケーリングがレイテンシにどのような影響を与えるのか、AIトレーニング環境における実際のスループットはどの程度なのか、といった点です。しかし、ここでの大きなメッセージは、フラッシュメモリが低速でディープストレージとしての役割から脱却し、より上位の階層へと進出しているということです。キオクシアのビジョン(プレスリリースで概説されている)が実現すれば、次世代データセンターでは、ストレージモジュールがGPU自体と並んで帯域幅の優位性を競うことになるかもしれません。
Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。
ハッサム・ナシルは、長年の技術編集者兼ライターとしての経験を持つ、熱狂的なハードウェア愛好家です。CPUの詳細な比較やハードウェア全般のニュースを専門としています。仕事以外の時間は、常に進化を続けるカスタム水冷式ゲーミングマシンのためにチューブを曲げたり、趣味で最新のCPUやGPUのベンチマークテストを行ったりしています。