研究者らがChatGPTの応答品質の驚くべき低下を記録

（画像提供：Future）

ここ数ヶ月、ChatGPTの応答品質の低下に関する事例証拠や世間のざわめきが急増しています。スタンフォード大学とカリフォルニア大学バークレー校の研究チームは、実際に品質が低下しているかどうかを確認し、悪影響の規模を定量化する指標を策定することにしました。端的に言えば、ChatGPTの品質低下は決して想像上のものではありませんでした。

マテイ・ザハリア氏、リンジャオ・チェン氏、ジェームズ・ゾウ氏の3人の著名な学者が、最近発表された研究論文「ChatGPTの挙動は時間とともにどのように変化するのか？」（PDF）の執筆者です。本日、カリフォルニア大学バークレー校のコンピュータサイエンス教授であるザハリア氏は、Twitterでこの研究結果を共有しました。彼は驚くべきことに、「GPT-4の『この数は素数か？段階的に考えろ』という質問に対する正解率は、3月から6月にかけて97.6%から2.4%に低下した」と指摘しました。

上記の素数クエリにおけるGPT-4の卓越した失敗率の例は既に示しました。研究チームは、ChatGPTの基盤となる大規模言語モデル（LLM）であるGPT-4とGPT-3.5の以下の定性的な側面を測定するためのタスクを設計しました。タスクは4つのカテゴリに分類され、パフォーマンス評価が比較的容易でありながら、多様なAIスキルを測定できます。

数学の問題を解く
デリケートな質問に答える
コード生成
視覚的推論

Open AI LLMのパフォーマンスの概要は、以下のグラフに示されています。研究者たちは、2023年3月と2023年6月のリリースにおけるGPT-4とGPT-3.5の性能を定量化しました。

ChatGPT品質調査 — (画像クレジット: マテイ・ザハリア、リンジャオ・チェン、ジェームス・ゾウ)

「同じ」LLMサービスが時間の経過とともにクエリへの回答に大きく変化することが明確に示されています。この比較的短い期間にも、大きな違いが見られます。これらのLLMがどのように更新されるのか、また、パフォーマンスの一部を向上させるための変更が他の側面に悪影響を与える可能性があるかどうかは依然として不明です。3つのテストカテゴリにおいて、GPT-4の最新バージョンが3月のバージョンと比べてどれだけ「劣っている」かをご覧ください。視覚的推論ではわずかな差で勝利を収めているだけです。

これらのLLMの「同じバージョン」で観察される品質のばらつきを気にしない人もいるかもしれません。しかし、研究者たちは「ChatGPTの人気により、GPT-4とGPT-3.5は個人ユーザーや多くの企業に広く採用されています」と指摘しています。したがって、GPTによって生成された情報の一部があなたの生活に影響を与える可能性は否定できません。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

研究者たちは、GPTのバージョンをより長期的な研究で評価し続ける意向を表明しています。Open AIは、有料顧客向けに独自の定期的な品質チェックを実施し、それを公開すべきでしょう。この点が明確に示されないのであれば、企業や政府機関は、商業的にも研究的にも大きな影響を与える可能性のあるこれらのLLMの基本的な品質指標を継続的に監視する必要があるかもしれません。