
ここ数ヶ月、ChatGPTの応答品質の低下に関する事例証拠や世間のざわめきが急増しています。スタンフォード大学とカリフォルニア大学バークレー校の研究チームは、実際に品質が低下しているかどうかを確認し、悪影響の規模を定量化する指標を策定することにしました。端的に言えば、ChatGPTの品質低下は決して想像上のものではありませんでした。
マテイ・ザハリア氏、リンジャオ・チェン氏、ジェームズ・ゾウ氏の3人の著名な学者が、最近発表された研究論文「ChatGPTの挙動は時間とともにどのように変化するのか?」(PDF)の執筆者です。本日、カリフォルニア大学バークレー校のコンピュータサイエンス教授であるザハリア氏は、Twitterでこの研究結果を共有しました。彼は驚くべきことに、「GPT-4の『この数は素数か?段階的に考えろ』という質問に対する正解率は、3月から6月にかけて97.6%から2.4%に低下した」と指摘しました。
上記の素数クエリにおけるGPT-4の卓越した失敗率の例は既に示しました。研究チームは、ChatGPTの基盤となる大規模言語モデル(LLM)であるGPT-4とGPT-3.5の以下の定性的な側面を測定するためのタスクを設計しました。タスクは4つのカテゴリに分類され、パフォーマンス評価が比較的容易でありながら、多様なAIスキルを測定できます。
- 数学の問題を解く
- デリケートな質問に答える
- コード生成
- 視覚的推論
Open AI LLMのパフォーマンスの概要は、以下のグラフに示されています。研究者たちは、2023年3月と2023年6月のリリースにおけるGPT-4とGPT-3.5の性能を定量化しました。
「同じ」LLMサービスが時間の経過とともにクエリへの回答に大きく変化することが明確に示されています。この比較的短い期間にも、大きな違いが見られます。これらのLLMがどのように更新されるのか、また、パフォーマンスの一部を向上させるための変更が他の側面に悪影響を与える可能性があるかどうかは依然として不明です。3つのテストカテゴリにおいて、GPT-4の最新バージョンが3月のバージョンと比べてどれだけ「劣っている」かをご覧ください。視覚的推論ではわずかな差で勝利を収めているだけです。
これらのLLMの「同じバージョン」で観察される品質のばらつきを気にしない人もいるかもしれません。しかし、研究者たちは「ChatGPTの人気により、GPT-4とGPT-3.5は個人ユーザーや多くの企業に広く採用されています」と指摘しています。したがって、GPTによって生成された情報の一部があなたの生活に影響を与える可能性は否定できません。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
研究者たちは、GPTのバージョンをより長期的な研究で評価し続ける意向を表明しています。Open AIは、有料顧客向けに独自の定期的な品質チェックを実施し、それを公開すべきでしょう。この点が明確に示されないのであれば、企業や政府機関は、商業的にも研究的にも大きな影響を与える可能性のあるこれらのLLMの基本的な品質指標を継続的に監視する必要があるかもしれません。
いいえ、GPT-4を愚かにしたわけではありません。むしろその逆です。新しいバージョンは、以前のバージョンよりも賢くなっています。現在の仮説:GPT-4を頻繁に使用すると、以前は気づかなかった問題に気づき始めるでしょう。2023年7月13日
AI と LLM テクノロジーは驚くべき問題に見慣れており、業界のデータ窃盗の申し立てやその他の PR の泥沼により、現在、コネクテッド ライフとコマースの最新の「未開の地」となっているようです。
マーク・タイソンはトムズ・ハードウェアのニュース編集者です。ビジネスや半導体設計から、理性の限界に迫る製品まで、PCテクノロジーのあらゆる分野を網羅的にカバーすることに情熱を注いでいます。