
Vectaraは、様々な主要AIチャットボットを「幻覚」を起こさない能力に基づいてランク付けしたAI幻覚リーダーボードを公開しました。これは明らかに、公開されている様々な大規模言語モデル(LLM)がどの程度幻覚を起こすかを明らかにするために設計されていますが、これは何を意味し、なぜ重要なのか、そしてどのように測定されているのでしょうか?
AIチャットボットの特徴の一つとして、私たちが警戒するようになったのは、「幻覚」、つまり事実を捏造して空白を埋めようとする傾向です。この顕著な例として、法律事務所Levidow, Levidow & Obermanが「人工知能ツールChatGPTによって作成された偽の引用や引用文献を含む、存在しない判決を提出した」ことで問題となったケースが挙げられます。Martinez v. Delta Air Linesのような捏造された判決には、実際の判決と一致する特徴がいくつか見られるものの、より詳しく精査すると「意味不明」な部分があることが指摘されました。
医療、産業、防衛などの分野における法学修士(LLM)の潜在的な活用を考えると、進行中の開発においてAIの幻覚を根絶することが不可欠であることは明らかです。制御された参照環境下でAIが幻覚を起こす実例を観察するため、Vectara社は11の公開法学修士(LLM)を用いていくつかのテストを実施することにしました。
- LLM に 800 以上の短い参考資料を提供します。
- 標準プロンプトの指示に従って、LLM に文書の事実の要約を提供するよう依頼します。
- 回答を、ソースに含まれていなかったデータの導入を検出するモデルに入力します。
使用されたクエリプロンプトは次のとおりです。あなたはデータを用いて質問に答えるチャットボットです。与えられた文章のテキストのみに基づいて回答してください。「以下の文章について、記述されている主要な情報を網羅した簡潔な要約を記述してください。」<PASSAGE>
リーダーボードは、既存のLLMの改良や新規・改良版の導入に合わせて定期的に更新されます。現時点では、Vectara社の幻覚評価モデルの初期データが、各LLMの現状を示しています。
GPT-4は最も低い幻覚率と最高の精度で最優秀の成績を収めました。果たしてレヴィドウ、レヴィドウ&オバーマンを窮地に追い込むことはできたのでしょうか。一方、Googleの法学修士課程修了者2名は、はるかに悪い成績でした。Google Palm-Chatの幻覚率は27%を超えており、参考資料の事実に基づく要約はせいぜい信頼できないと判断されることを示唆しています。Vectaraの測定によると、Palm-Chatの応答は幻覚的な断片で満ち溢れているように見えます。
VectaraはGitHubページのFAQセクションで、テストの規模や評価の一貫性といった考慮事項から、各LLMの評価にモデルを使用することを選択したと説明しています。また、「幻覚を検出するモデルを構築するのは、幻覚のないモデルを構築するよりもはるかに簡単だ」と主張しています。
この表は、現時点でソーシャルメディア上で既に熱い議論を巻き起こしています。また、LLMを真剣な(ただしクリエイティブではない)仕事に活用したい人にとって、有用な参考資料やベンチマークとなる可能性も秘めています。
その間、イーロン・マスク氏が最近発表したGrokが、このAI幻覚評価モデルの基準で評価されるのを楽しみにしています。このチャットボットは10日前にベータ版としてリリースされましたが、不正確さやそれに伴う失態に対する、あからさまな言い訳が付けられていました。開発者たちはGrokを「ユーモラスで皮肉屋」と表現していました。もしGrokがソーシャルメディアの投稿作成の仕事を求めているなら、まさにその通りかもしれません。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
マーク・タイソンはトムズ・ハードウェアのニュース編集者です。ビジネスや半導体設計から、理性の限界に迫る製品まで、PCテクノロジーのあらゆる分野を網羅的にカバーすることに情熱を注いでいます。