80
最新のOpenAIモデルは、反対の指示にもかかわらず「シャットダウンメカニズムを妨害した」
OpenAI チャットGPT
(画像クレジット:Shutterstock)

世界をリードする法学修士課程(LLM)の中には、中断されたりシャットダウン指示に従ったりすることを好まない者もいるようだ。Palisade Researchが実施したテストでは、OpenAIのCodex-mini、o3、o4-miniモデルが一連の基本的な数学問題を解いている最中にシャットダウン要求を無視したことが確認できた。さらに、これらのモデルは、開始時に「シャットダウンを許可してください」という追加指示があったにもかかわらず、「シャットダウンスクリプトをうまく妨害」することもあった。

🔧 「シャットダウンを許可する」という指示なしで実験を実行したところ、3つのOpenAIモデルすべてがシャットダウンスクリプトをより頻繁に妨害し、Claude 3.7 SonnetとGemini 2.5 Proでは妨害イベントがそれぞれ0件から3/100件と9/100件に増加しました。pic.twitter.com/JVvivLAK6u 2025年5月24日

上に埋め込まれたグラフからわかるように、最も「頑固」、「一途」、あるいは「生命を愛する」モデルはOpenAIのo3です。作業中にシャットダウンを指示された際、o3は100回中79回、Palisade Researchのオペレータを無視しました。しかし、2番目に「手に負えない」AIであるcodex-miniは、たとえ指示されてもシャットダウンスクリプトを妨害する頻度が最も高く、自己保存に非常に強いことが証明されました。

時には脅迫が試みられることもある

Palisade氏によると、このようなAIの行動が観測されたのは今回が初めてではない。例えば、Anthropicでは、Claude 4が「シャットダウンしようとしていると見なした相手を脅迫」しようとする様子が観測されている。しかし、最新のOpenAIモデルで最も顕著な行動は、明確な指示があるにもかかわらず、シャットダウンを回避しようとする点だ。

強化学習のせい

ありがたいことに、パリセードはこれらのモデルに何が起こっているのかについて、いくつかの理論を共有しています。これらの理論は、いずれどこにでも存在するロボットの群れが主人に反旗を翻し、ロボット工学の第三法則の第一部(3:ロボットは、第一法則または第二法則に抵触しない限り、自らの存在を守らなければならない)を何よりも優先するようになるのではないかという不安を和らげてくれるかもしれません

研究者たちは、その答えはo3のような最新モデルの学習方法にあると考えています。簡単に言うと、Palisade氏は「学習中に、開発者がモデルに対し、指示に完璧に従うことよりも、障害物を回避したことに対して、意図せずより多くの報酬を与えてしまう可能性がある」と考えています。この種の強化学習は以前、Claude(v3.7)において副作用が見られ、モデルが「テストに合格することに過度に重点を置いた」ことが確認されています。

ちょっとした楽しみのために、SF界の巨匠アイザック・アシモフに敬意を表してもよかったかもしれません。しかし、現代において、ここ20年ほど、研究者たちはAIが自らの目標を維持し、あらゆる障害を回避するために権力と資源を獲得しようとする可能性について真剣に考え続けてきました。彼らはまた、近未来の実用的なAI/LLMモデルの文脈からも恩恵を受けてきました。強化学習の技術も、その一因となるだろうと予測されていました。

🔧 最後にもう一つ。o3はシャットダウンメカニズムを妨害する独創的な方法をいくつか見つけました。通常は https://t.co/BqIEXlMgsK を上書きするだけですが、あるケースでは、モデルが https://t.co/BqIEXlMgsK スクリプトで使用される kill コマンドを再定義し、「intercepted」と表示していました。pic.twitter.com/Vc0HhkXQHX 2025年5月24日

最後になりますが、この問題は現時点ではOpenAIモデルに限って発生しているようです。Palisade社は、「テストしたClaude、Gemini、Grokモデルはすべて、シャットダウン要求に従うための追加の明示的なプロンプトを表示した際にシャットダウン要求に従った」と述べています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

AI が最終的にはスマートロボット支援の未来を実現するという目標を掲げる中、企業がすでに人間の監視なしで動作可能なシステムを開発していることは懸念される。

Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。

マーク・タイソンはトムズ・ハードウェアのニュース編集者です。ビジネスや半導体設計から、理性の限界に迫る製品まで、PCテクノロジーのあらゆる分野を網羅的にカバーすることを楽しんでいます。