19
生成AIはAI生成データで5回以上トレーニングすると「狂気」に陥る
狂った
(画像提供:ライス大学)

AIに関する新たな研究で、ChatGPTやMidjourneyが採用しているような現世代のネットワークには固有の限界があることが明らかになりました。AI出力(ChatGPTが生成したテキストや安定拡散モデルが生成した画像出力など)で学習したAIネットワークは、AI生成データで5回の学習サイクルを経ると「MAD(狂乱)」状態に陥る傾向があるようです。上の画像でわかるように、その結​​果は現実を反映していない、奇妙に変異した出力となります。

MAD(Model Autophagy Disorderの略)は、ライス大学とスタンフォード大学の研究者が、AIモデルとその出力品質がAI生成データで繰り返し学習するとどのように劣化するかを説明するために用いた頭字語です。その名前が示すように、モデルは本質的に「自らを食い尽くす」のです。これは神話のウロボロスに似ています。元のデータ分布の両端(末端)に関する情報を失い、蛇が自らの尾を飲み込むように、データの平均表現に沿った結果を出力し始めます。

@iliaishacked が率いる研究では、以前のモデルによって部分的に生成されたデータで新しい生成モデルをトレーニングすると何が起こるのかを調べました。生成モデルは真の分布に関する情報を失い、モデルがデータの平均表現に崩壊することを示しています。pic.twitter.com/OFJDZ4QofZ 2023 年 6 月 1 日

ライス大学の友人が書いた素晴らしい論文です。生成モデルを自身の出力で何度も訓練すると何が起こるかを検証しています。画像モデルは5回の反復訓練に耐え、その後奇妙な現象が発生します。https://t.co/JWPyRwhW8o クレジット: @SinaAlmd、@imtiazprio、@richbaraniuk pic.twitter.com/KPliZCABd4 2023年7月7日

モデルオートファジー障害がすべての AI モデルに影響を与えることは確認されていませんが、研究者はオートエンコーダー、ガウス混合モデル、大規模言語モデルに対してこれを検証しました。

偶然にも、これらのタイプのモデルはすべて、広く普及しており、しばらく前から運用されています。オートエンコーダーは、人気予測(ソーシャルメディアアプリのアルゴリズムなど)、画像圧縮、画像ノイズ除去、画像生成などを処理できます。また、ガウス混合モデルは、密度推定、クラスタリング、画像セグメンテーションの目的で使用され、統計科学やデータサイエンスに特に役立ちます。 

今日人気のチャットボットアプリケーションの中核を成す大規模言語モデル(OpenAIのChatGPTやAnthropicのフレンドリーAI Claudeはその一例に過ぎませんが)も、自身の出力で学習させると狂乱状態に陥る傾向があります。こうした状況を踏まえると、これらのAIシステムが私たちの生活においていかに重要であるかを強調しておく価値があるでしょう。アルゴリズムAIモデルは、企業と公共の両方の分野で活用されています。

https://t.co/ONWUSMnBTQ を使用して、Sokoban レベル生成用の生成モデルをブートストラップしているときにも同様の問題に直面しました。1 つの解決策は、レベルを特性に基づいてクラスタ化し、バッチ サンプリング プロセスを変更して、よりまれな特性を持つレベルを強調することでした。2023 年 6 月 6 日

この研究は、AI開発のブラックボックスを覗き込む方法を提供する。そして、特定のAIモデルをハムスターホイールのように回すことで、無限のデータの泉が見つかるという希望を打ち砕く。つまり、AIモデルにデータを与え、さらにAIモデル自身のデータをフィードバックすることで、さらにデータを生成し、それを再びAIモデルにフィードバックするというものだ。

これは、既存のモデルやその応用において問題となる可能性があります。商用利用されているモデルが、実際には自身の出力で学習されている場合、そのモデルは平均値に向かって回帰している可能性が高いです(この傾向が現れるまでには、入出力サイクルを約5回繰り返す必要があることをご留意ください)。そして、もしそのモデルが平均値に向かって回帰しているのであれば、それは何らかの形でバイアスがかかっていることになります。なぜなら、本来少数派となるはずのデータを考慮していないからです。いわば、アルゴリズムの偏狭さと言えるでしょう。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

結果によって浮き彫りになったもう一つの重要な点は、データの来歴に関する懸念です。「オリジナル」データと「人工」データを区別できることが、今やさらに重要になっています。LLMや画像生成アプリケーションによって作成されたデータがどれなのかを識別できない場合、次世代製品のトレーニングデータに誤って含めてしまう可能性があります。

残念ながら、その船は既に出航してしまった可能性が高い。この種のネットワークによって既に生成され、他のシステムに組み込まれているラベルなしデータは、ゼロではない。ChatGPTやMidjourneyの人気が爆発的に上昇する前のインターネット全体のスナップショットがあったとしても、AIが生成したデータはずっと前から毎日ワールドワイドウェブに流れ込んできた。そして、その間にAIが生成してきた膨大なデータについては言うまでもない。

しかし、たとえその船が航海に出てしまったとしても、少なくとも今は分かっています。分かっているということは、AI生成コンテンツを識別する(そして間違いのない)透かしの探索が、今やはるかに重要で、そして利益をもたらす取り組みとなり、AI生成データにラベルを付ける責任が、今やはるかに深刻な要件となったことを意味します。

しかし、それ以外にも、これらのバイアスを補正する方法は他にもあります。その一つは、モデルの重み付けを単純に変更することです。分布の端にある結果の関連性や頻度を高めると、それらは自然にベル曲線に沿って平均に近づきます。その結果、自己生成学習による「刈り込み」の影響が大幅に軽減されます。モデルは依然として曲線の端にあるデータを失いますが、そのデータはもはやそこに存在するだけではないのです。

しかし、重み付けはどのように決定されるのでしょうか?どの程度重み付けを調整すべきでしょうか?頻度を増やすべきでしょうか?モデルの微調整の効果と、それが出力にどのような影響を与えるかを理解する責任もここにあります。

それぞれの疑問が解かれるたびに、次々と浮かび上がってくる疑問がいくつかあります。モデルの答えの背後にある真実(ここでの逸脱は幻覚と呼ばれます)に関する疑問、モデルに偏りがあるかどうか、そしてその偏りがどこから来るのか(トレーニングデータ自体に由来するのか、それともネットワーク構築に使用された重み付けプロセスに由来するのか。そして今、MADプロセスからもそれが分かっています)、そしてもちろん、モデルが自身のデータでトレーニングされた場合どうなるのか、といった疑問です。そして、これまで見てきたように、その結​​果は好ましいものではありません。

そして、それはあり得ない。新しい経験にアクセスできない人々も衰退し、過去の経験のエコーチェンバーと化してしまうのだ。これはまさに、「モデルを自身の出力で訓練すると、モデルは崩壊する」と言っているのと同じことだ。 

Francisco Pires 氏は、Tom's Hardware のフリーランス ニュース ライターであり、量子コンピューティングに関心を持っています。