77
再帰学習のためのAI生成データを求めるAI企業
同じ考えを繰り返し共有しながらループ状に会話する人々を表す 2 つのシンボル。
(画像クレジット:Shutterstock)

Microsoft、OpenAI、CohereなどのAI企業は、自社のAI製品の学習に用いる合成データを見つけるためにあらゆる努力をしているようです。ワールドワイドウェブ上で人間が生成した「オーガニック」なデータが限られていることを理由に、これらの企業はAIが生成した(合成)データを一種の無限ループで利用することを目指しており、学習は既に生成的に作成されたデータを用いて行われます。

「必要なデータをすべてウェブから取得できれば素晴らしいでしょう」と、20億ドル規模のLLMスタートアップ企業CohereのCEO、エイダン・ゴメス氏はフィナンシャル・タイムズ紙に語った。「実際には、ウェブはあまりにもノイズが多く、雑然としているため、必要なデータを正確に反映できていません。ウェブは私たちが必要とするすべてのことを実現しているわけではないのです。」

さらに、コストの問題もあります。ゴメス氏によると、人間が生成したデータは「非常に高価」です。このため、Gretel.aiのような「合成データ」を扱う企業が既に設立されています。Gretel.aiは、学習用に販売される合成データセットの作成を専門としています。

データの入手可能性と出所の問題は、現代のAI時代における最大の制約要因の一つです。今日、AI自身が既に「咀嚼」し生成した合成データを用いてAIネットワークを学習させることには、現実的なリスクが伴います。例えば、ベースとなる学習データに欠陥が蓄積されていくという問題があります。元の非合成学習データセットに既にバイアスが含まれていた場合、同じバイアスが後続の学習反復に取り込まれ、消化・増幅され、関連性が増していきます。

しかし、おそらくはるかに影響力のある別の問題は、最近発見された限界に起因しています。AIが生成した合成データで5回の学習ラウンドを行うと、出力品質が著しく低下するというものです。この「MAD」状態がAI学習におけるソフトな限界なのか、それともハードな限界なのかは、MicrosoftとOpenAIがAIネットワークを再帰的に学習させるという意図の核心にある問題のように思われます。しかし、この分野では今後多くの研究が行われるでしょう。例えば、Microsoft Researchは、再帰的に生成された短編小説(つまり、あるモデルが別のモデルによって生成された物語で学習された)と、AIが生成したPythonプログラミングに関するドキュメントで学習されたコーディングAIネットワークに関する論文を発表しています。これらのモデルやその他の大規模モデル(Metaが最近オープンソース化した700億パラメータのLlama 2など)におけるデータ劣化のリスクを検証することは、近い将来、AIがどれだけ(そしてどれだけ速く)進化するかの鍵となるでしょう。

自己進化型、自己学習型の AI というテクノクラートの夢の実現には、いくつかの障害があります。つまり、内部で議論し、内部で発見し、単なる組み合わせや混合ではない新しい知識を生み出すモデルです (結局のところ、組み合わせや混合は創造的な成果の特徴の 1 つですが)。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

もちろん、すべての夢が楽しいとは限らないことを忘れてはなりません。人間が作り出す悪夢に対処するのはすでに困難ですが、機械が作り出す「悪夢」がどれほど大きな影響を与えるかは計り知れません。

Francisco Pires 氏は、Tom's Hardware のフリーランス ニュース ライターであり、量子コンピューティングに関心を持っています。