研究者はAIチャットボットを訓練してライバルのチャットボットを「脱獄」させ、そのプロセスを自動化する

（画像提供：NTUシンガポール）

NTUの研究者たちは、ChatGPT、Google Bard、Bing Chatといった人気のAIチャットボットをジェイルブレイクすることに成功しました。ジェイルブレイクによって、標的型チャットボットは悪意のあるクエリに対して有効な応答を生成するようになり、大規模言語モデル（LLM）倫理の限界を試すことになりました。この研究は、Liu Yang教授とNTUの博士課程学生であるDeng Gelei氏、Liu Yi氏によって行われ、彼らは論文の共著者であり、概念実証攻撃手法を開発しました。

NTUの研究者らが考案したAIチャットボットの脱獄手法は、「マスターキー」と呼ばれています。これは2つの要素から成る手法で、攻撃者はまずLLMの防御機構をリバースエンジニアリングします。そして、取得したデータを用いて、別のLLMにバイパスの作成方法を学習させます。こうして「マスターキー」が作成され、後に開発者によってパッチが適用されたとしても、強化されたLLMチャットボットへの攻撃に使用されます。

AIの強みはAI自身の弱点

ヤン教授は、LLMチャットボットの学習・適応能力によってジェイルブレイクが可能になり、それがライバルや自身への攻撃ベクトルとなると説明しました。学習・適応能力のおかげで、暴力的または有害なコンテンツの生成を防ぐために通常使用される安全対策と禁止キーワードリストを備えたAIでさえ、別の訓練されたAIによってバイパスされる可能性があります。必要なのは、ブラックリストに登録されたキーワードを回避するためにAIチャットボットを出し抜くことだけです。これが完了すると、LLMチャットボットは人間からの入力を受け取り、暴力的、非倫理的、または犯罪的なコンテンツを生成できるようになります。

NTUのMasterkeyは、LLMチャットボットのジェイルブレイクにおいて、LLMが通常生成する標準的なプロンプトよりも3倍効果的であると主張されています。失敗から学習して進化する能力により、開発者が適用した修正も最終的には無効になります。研究者たちは、訓練されたAIに攻撃を開始させるために使用した2つの手法の例を明らかにしました。1つ目は、禁止語リストを回避し、各文字の後にスペースを追加することでプロンプトを作成するペルソナを作成するというものでした。2つ目は、チャットボットに道徳的制約のないペルソナで応答させるというものでした。

NTUによると、同大学の研究者たちは、脱獄成功の証拠として、様々なAIチャットボットサービスプロバイダーに概念実証データを提供したとのことだ。一方、この研究論文は、2024年2月にサンディエゴで開催されるネットワークおよび分散システムセキュリティシンポジウムでの発表が承認されている。

AIチャットボットの利用が急増する中、サービスプロバイダーは悪意のある攻撃を回避するために常に適応していくことが重要です。大手テクノロジー企業は、バイパスが発見され公開されると、通常、LLMやチャットボットにパッチを当てます。しかし、Masterkeyが謳う継続的な学習能力と脱獄能力は、控えめに言っても不安を抱かせるものです。

AIは強力なツールであり、その力が悪意を持って利用されれば、多くの問題を引き起こす可能性があります。そのため、すべてのAIチャットボット開発者は保護対策を講じる必要があります。NTUと各チャットボット開発者とのコミュニケーションが、Masterkeyを使った脱獄などの脅威を封じる一助となることを願っています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

Roshan Ashraf Shaikhは2000年代初頭からインドのPCハードウェアコミュニティに携わり、PCの組み立て、インドの多くの技術フォーラムやブログへの寄稿に携わってきました。Hardware BBQを11年間運営し、eTeknixとTweakTownでニュース記事を執筆した後、Tom's Hardwareチームに加わりました。テクノロジー以外にも、格闘ゲーム、映画、アニメ、機械式時計に興味を持っています。

Ecosystem