
研究者グループが、NVIDIA GPUのメモリ内のビットを反転させ、実際のコードやデータ入力には一切手を付けずにAIモデルをひそかに破壊し、深刻な被害をもたらす「GPUHammer」と呼ばれる新たな攻撃を発見しました。幸いなことに、NVIDIAは既に攻撃者よりも先を進んでおり、この状況に伴うリスクを軽減するためのガイドラインを公開しています。いずれにせよ、GDDR6メモリを搭載したカードを使用している場合は、注意が必要です。
この発見をもたらしたトロント大学の研究チームは、メモリ内の1ビットを反転させるだけで、AIモデルの精度を80%から1%未満にまで低下させる攻撃方法を示しました。これは単なる理論上の話ではなく、実際のNVIDIA RTX A6000でこの攻撃を実行しました。この攻撃では、メモリセルを繰り返し攻撃することで近くのメモリセルを反転させ、そこに保存されているデータを改ざんするという手法が用いられました。
GPUHammer とは何でしょうか?
GPUHammerは、Rowhammerと呼ばれる既知のハードウェア問題のGPUに特化したバージョンです。CPUとRAMの世界では以前から存在していました。現代のメモリチップは非常に高密度に実装されているため、ある行を繰り返し読み書きすると、電気的干渉が生じ、隣接する行のビットが反転してしまうことがあります。反転したビットは、数値、コマンド、ニューラルネットワークの重みの一部など、あらゆるものになり得ます。そして、これが問題の原因となります。
これまで、この問題は主にDDR4システムメモリの懸念事項でしたが、GPUHammerは、多くの最新NVIDIAカード、特にAIやワークステーションのワークロードで使用されているGDDR6 VRAMでも発生する可能性があることを証明しました。これは、少なくとも特定の状況においては深刻な懸念事項です。研究者たちは、いくつかの安全策を講じていても、複数のメモリバンクにわたって複数のビット反転を引き起こす可能性があることを示しました。あるケースでは、これにより学習済みのAIモデルが完全に破壊され、実質的に使用不能になってしまいました。恐ろしいのは、ユーザーのデータにアクセスする必要がないことです。攻撃者はクラウド環境やサーバーで同じGPUを共有するだけで、ユーザーのワークロードを好きなように操作できる可能性があります。
前述の通り、この攻撃はRTX A6000でテストされましたが、このリスクはAmpere、Ada、Hopper、Turingといった幅広いGPU、特にワークステーションやサーバーで使用されるGPUに当てはまります。NVIDIAは影響を受けるモデルの完全なリストを公開しており、それらのほとんどに対してECCを推奨しています。ただし、RTX 5090やH100などの新しいGPUには、チップに直接ECCが組み込まれており、自動的に処理されるため、ユーザーによる設定は不要です。
しかし、自宅にこもって自分の環境を心配している人にとっては、これは個人のゲーマーや自宅のPCを狙った攻撃とは考えにくいでしょう。これは、クラウドゲームサーバー、AIトレーニングクラスター、あるいは複数のユーザーが同じハードウェア上でワークロードを実行するVDI環境といった共有GPU環境に関係するものです。とはいえ、GPUのメモリが密かに改ざんされる可能性があるという根本的な考え方は、業界全体が真剣に受け止めるべき問題であり、特にゲーム、アプリ、サービスがAIを活用するようになっている今、その重要性は増しています。
Nvidiaの対応
NVIDIAは、シンプルながらも重要な推奨事項を提示しました。GPUがECC(誤り訂正符号)をサポートしている場合は、ECCを有効にすることです。ECCはメモリに冗長性を追加し、ビット反転などのエラーを検出して修正できるようにする機能です。ただし、ECCを有効にすると、機械学習タスクのパフォーマンスが約10%低下し、使用可能なVRAM容量が約6~6.5%減少するという、わずかなトレードオフがあることにご注意ください。しかし、安心して本格的なAI処理を実行するには、それだけの価値があります。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
Nvidia のコマンドライン ツールを使用してこれを有効にできます。
nvidia-smi -e 1
ECC がアクティブかどうかを確認するには、次の方法もあります。
nvidia-smi -q | grep ECC
GPUHammerのような攻撃は、システムをクラッシュさせたり不具合を引き起こしたりするだけではありません。AI自体の整合性を改ざんし、モデルの動作や意思決定に影響を与えます。しかも、すべてがハードウェアレベルで行われるため、何に注意すべきかを正確に理解していない限り、これらの変更はほとんど目に見えません。医療、金融、自動運転といった規制の厳しい業界では、誤った判断、セキュリティ上の欠陥、さらには法的影響など、深刻な問題を引き起こす可能性があります。一般ユーザーが直接リスクにさらされることはないとしても、GPUHammerは警鐘を鳴らすものです。GPUがゲームだけでなくAI、クリエイティブワーク、生産性向上へと進化し続けるにつれて、リスクも増大します。GPUであっても、メモリの安全性はもはや必須です。
Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。
ハッサム・ナシルは、長年の技術編集者兼ライターとしての経験を持つ、熱狂的なハードウェア愛好家です。CPUの詳細な比較やハードウェア全般のニュースを専門としています。仕事以外の時間は、常に進化を続けるカスタム水冷式ゲーミングマシンのためにチューブを曲げたり、趣味で最新のCPUやGPUのベンチマークテストを行ったりしています。