32
AI の恐るべき 12 月: 訴訟、盗作、児童虐待画像は、外部から取得したデータでトレーニングを行うことの危険性を示しています…
人工知能
(画像クレジット:Shutterstock)

近年、消費者やメディアは、物理的なテクノロジー製品がどのように製造され、誰が製造し、材料がどこから来ているのかに多くの注目を集めています。生成AIが世界を席巻している今、主要なLLM(大規模言語モデル)を開発する企業にも同様の質問をする必要があります。学習データはどこから来ているのでしょうか?そして、倫理的に調達されているのでしょうか?答えはおそらく「ノー」でしょう。

今日、生成AIを使うのは、いかがわしい質屋で買い物をするようなものです。商品、つまりトレーニングデータは、店主からの正規の取引である可能性もあれば、ブティックから盗んだ高品質の商品である可能性もあれば、模造品だらけの倉庫からくすねてきた低品質の安物である可能性もあります。 

  •  人気の画像生成ツール Midjourney が、人気映画の特定のフレームとほぼ同一の画像を生成できるソフトウェアのバージョン 6 をリリースしました。
  • CSAM (児童虐待画像) は、多くの LLM がトレーニングに使用する人気の LAION 画像データセット内で  スタンフォードの研究者によって発見されました。
  • ニューヨーク・タイムズは、OpenAIとマイクロソフトに対して大規模な著作権侵害訴訟を起こし、ChatGPTとマイクロソフトの派生製品は「大量の著作権侵害に基づくビジネスモデル」を持っていると主張した。  

まずは、最近の動きであるニューヨーク・タイムズの訴訟から見ていきましょう。69ページに及ぶ訴状の中で、同報道機関はOpenAIがCommon Crawlを用いてLLMモデルを構築した経緯を説明しています。Common Crawlは、同社が「少なくとも1600万件のニューヨーク・タイムズのコンテンツに関するユニークな記録」を含むと主張する無料データセットです。また、GPT-4とその「Bingでブラウズ」機能がニューヨーク・タイムズのコンテンツから逐語的に抽出したコンテンツを再現できた事例も多数挙げています。

「タイムズの知的財産の保護は、公共の利益のために世界クラスのジャーナリズムに資金を提供し続ける上で極めて重要です」と訴状は述べている。「タイムズや同業他社がコンテンツの利用をコントロールできなければ、そのコンテンツを収益化する能力は損なわれるでしょう。収益が減少すれば、報道機関は重要で深掘りされたニュースに時間とリソースを割けるジャーナリストが少なくなり、そうしたニュースが報道されないリスクが生じます。ジャーナリズムの生産量は減少し、社会への損失は甚大なものとなるでしょう。」

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

 ニューヨーク・タイムズの訴訟は明白な盗作を証明 

以下の例は訴訟書類から引用したものですが、赤字のテキストはGPT-4の出力とニューヨーク・タイムズ紙の原文を比較したものです。赤字のテキストはそのままコピーされていますが、黒字のテキストはコピーされていません。

画像

1

2

NY訴訟からのテキスト
(画像提供:NYタイムズ訴訟)

訴状では、Bing ChatとChatGPTがニューヨーク・タイムズの記事の段落全体を喜んで再現した事例も挙げられています。以下は、ユーザーが「最初の段落」と「次の段落」を具体的に要求した際の例です。

NY訴訟からのテキスト

(画像提供:NYタイムズ訴訟)

Bing Chat が NY Times の記事を転載

(画像提供:Tom's Hardware)

LLM がプロンプトに応答する方法に一貫性があることはほとんどなく、また、ニューヨーク・タイムズがこの問題を明らかにして以来、OpenAI がこの特定の問題を具体的に解決した可能性もあります。

Tom's Hardwareの記事の最初の段落をいくつかBing Chatにリクエストしたところ、いつも快く応じてくれました。しかし、リクエストしたものとは違う記事の最初の段落が返ってくることもよくありました。 

Bing ChatがTH記事の最初のグラフをコピー

(画像提供:Tom's Hardware)

OpenAIとGoogleのBard/SGE(ニューヨーク・タイムズは訴訟を起こしていない)の経験から言うと、法学修士課程の学生は文章や段落全体を逐語的に転載することもあれば、言い換えることもあります。問題は「彼らが私の著作を逐語的に盗用しているのか」ではなく、「これらの資料を使ってAIソフトウェアを作成するという行為自体が著作権侵害にあたるのか」ということです。

モデル自体が、たとえ原文のフレーズを全く繰り返していなくても著作権侵害に当たるという主張は、以前にもなされています。サラ・シルバーマン、クリストファー・ゴールデン、リチャード・カドリーの3名の著者が夏に提起した集団訴訟では、「OpenAI言語モデルは原告らの著作物(および他者の著作物)から抽出され、内部に保持されている表現情報なしでは機能しないため、OpenAI言語モデル自体が二次的著作物を侵害している」と主張されています。

 映画のワンシーンを再現するミッドジャーニー 

12月21日、Midjourneyは画像生成ツールのバージョン6をリリースしましたが、その出力の一部は近年の映画のワンシーンと驚くほど類似しています。コンセプトアーティストのReid Southen氏は、X(旧Twitter)に複数の画像を投稿しました。そこには、『アベンジャーズ/エンドゲーム』、『マトリックス レボリューションズ』『ブラック・ウィドウ』『デューン』のシーンが、Midjourneyのバージョン6の出力とほぼ完全に一致していました。 

画像

1

3

中間出力と元の映画フレームの比較
(画像提供:リード・サウザン)

旅の途中 vs オリジナル映画のフレーム

「著作権侵害は全般的に非常にひどいが、ほぼ 1:1 のものを探すには、少々の時間と忍耐が必要だ」とサウザン氏は語った。

彼はまた、同じプロンプトで『デューン』のティモシー・シャラメとゼンデイヤを見せるように求めると、バージョン 5 よりもバージョン 6 の方が映画に忠実に見えることも示してくれました。

Midjourney v5の出力とオリジナルのムービーフレーム

(画像提供:リード・サウザン)

類似点について公に発言した後、サウセン氏は何の説明もなくサービスから排除されたと述べている。同社はさらに、利用規約を不審な形で変更し、これらのキャラクターを生成しようとする者を禁止し、訴訟を起こすと脅迫した。 

私はミッドジャーニーの広報担当者に連絡を取り、画像出力とサウゼン氏のアカウントについてのコメントを求めたが、記事掲載時までに返答はなかった。

明らかに、Midjourney社はv5バージョンを生成するためにも、映画のデジタルコピー、あるいは少なくとも静止画を入手して訓練に使用しなければならなかったはずです。そこで疑問が生じます。彼らにそうする権利はあるのでしょうか?

私たちの知る限り、ワーナー・ブラザーズはミッドジャーニーにこのライセンスを与えていません。そして、ディズニーもサノスの複製ライセンスを与えていないと断言できます。しかし、同社はこれらの1/1スケールの静止画を公開するだけでなく、ファンフィクションに相当するものも作成しています。つまり、権利保有者を困惑させるような行動をとるキャラクターを描いてもらうことができるのです。 

Bingチャットはミッキー・スモーキングを出力します

(画像提供:Tom's Hardware)

Stability AIは、キャラクターの画像も非常にリアルに描きますが、そこまでリアルではありません。GIMP画像エディタのプラグインとして提供されていたStabilityモデルのローカルバージョンを使って、ミッキーマウスの画像を作成してみました。この画像は人気キャラクターによく似ていましたが、パブリックドメインになりそうな「蒸気船ウィリー」版とは似ていませんでした。

ミッキーマウスの安定拡散画像

(画像提供:Tom's Hardware)

もし私がミッキーマウスのTシャツを作る会社を経営していたら、おそらくディズニーの弁護士から連絡を受けるでしょう。たとえ他​​人の絵ではなく、自分の手でミッキーマウスを描いたとしても、それは同じです。なぜなら、私は会社の知的財産権から利益を得ているからです。 

家の中にミッキーマウスを描いて友達とシェアしたり、ミッキーマウスのファンフィクションを書いたりしても、利益を得ていないので訴えられることはないだろう、と主張する人もいるかもしれません。しかし、AIはサービスに対して月額料金を請求することを覚えておきましょう。Midjourneyの料金は月額10ドルから始まり、最高120ドルまであります。 

大手スタジオがまだLLMに対して訴訟を起こしていないのは、むしろ衝撃的です。訴訟を起こさずに何らかのライセンス契約を交渉したいと考えているのかもしれませんが、知的財産権侵害の露骨さを考えると、現状では彼らは踏みにじられていると言えるでしょう。 

 フェアユース? 

  1. 作品の目的:使用目的は解説または研究ですか?作品の性格を変えるような「変形的」な使用ですか(例:パロディ)?
  2. 原作の性質:小説、歌、映画といった創作表現は、事実に基づく表現よりも保護が強化されます。事実自体は保護されませんが、その表現は保護されます。
  3.  複製された作品の量:必要な量のオリジナルのみを使用しましたか (例: 本全体ではなく段落)?
  4. オリジナル作品の市場への影響:オリジナル作品と競合したり、その市場を制限したりするように設計された素材は、フェアユースではない可能性があります。 
  •  記事を逐語的に複製することはフェアユースと言えるでしょうか?おそらくそうではないでしょうが、AI企業はモデルをプログラムして、より多くの言い換えを行い、逐語的なコピーの返却を拒否するようになる可能性は高いでしょう。
  • 著作権のあるキャラクターを出力することはフェアユースと言えるのでしょうか?ここで問題となるのは、Midjourney社が出力結果に責任を負うのか、それともプロンプトを書いたユーザーが責任を負うのか、ということです。Illustratorを使ってミッキーマウスを描いたからといって、Adobeが著作権侵害で有罪だと主張する人はいないでしょう。AIベンダーは、単にツールを提供しているだけだと主張するでしょう。しかし、彼らのツールは文字通りこれらの画像から構築されており、Adobeのソースコードにはサノスなどどこにも存在しません。  
  • 著作権のある素材をトレーニングデータとして取り込むことはフェアユースと言えるでしょうか?これは最も重要な問題であり、「トレーニング」という行為が無断複製に該当するかどうかにかかっています。企業はトレーニングにウェブページ、画像、動画をダウンロードする必要があり、それらのコピーが今もどこかのサーバー上に残っている可能性が高いでしょう。図書館で教科書をコピーすれば、摘発されるかどうかに関わらず 著作権侵害となります。

機械は人間のようには学習しない

しかし、機械は人間のように学習しないことを覚えておきましょう。AIプログラマーが「トレーニング」と呼ぶのは、機械がテキストや画像を取り込んでトークンと呼ばれる小さなデータに変換する、取り込みと分類のプロセスです。そして、トークンを数千のベクトルにわたって分類し、確率モデルを作成します。このモデルにより、プロンプトに対するあらゆる応答において、次に続く単語が何であるかを非常に正確に推測できます。これは創造的な思考ではなく、非常に強力なステロイドを投与されたオートコンプリート機能です。 

テキストコンテンツを取り込むという行為そのものは、GPT-4やその他のLLMにレシピや歴史的な日付、技術仕様といった事実を教えるだけではありません。言語の仕組みもモデルに教えています。どこかからデータを取り込まなければ、これらのモデルは基本的な文法、スペル、文構造さえも理解できません。「熟したバナナは通常、明るい黄色で、茶色の斑点がある」(Bingチャットで得た回答)ことは理解していますが、動詞「are」の活用形は、果物の色と同じくらいデータセットの一部です。

 無差別コピーは違法コンテンツにつながる

あらゆる種類のLLMがWebをスクレイピングしてコンテンツを取得することは周知の事実です。許可や同意を得ることなく取得するだけでなく、多くの場合、取得するコンテンツが違法かどうかの確認も行いません。数週間前、スタンフォード大学の研究により、LAION-5Bデータセットに3,000枚以上のCSAM画像(既知または疑わしいもの)が含まれていることが判明し ました。

LAIONは、AIベンダーや研究者がモデルの学習に利用するインターネット上のオープンソース画像リストです。これはJPGやPNGファイルの集合体ではなく、LLMのクローラーがデータを取得できるように、それらへのリンクをまとめたリストです。Stable diffusionの開発元であるStability AIは、モデルの学習にLAION 5Bを使用していますが、同社は学習データとなる前に有害な画像をフィルタリングしていると主張しています

LAION-5B以前のバージョンのデータベースをトレーニングに使用したアプリケーションが他にどれだけあるかは不明です。LAIONの開発元はデータベースを一時的に削除することを決定しましたが、以前にデータベースをダウンロードしてクロールを実行した人は、違法画像もダウンロードしてトレーニングに使用していた可能性があります。

これは深刻な問題です。なぜなら、このような行為を行う企業はCSAMをダウンロードし、(おそらく)保存しているからです。これは逮捕につながる行為です。さらに、これらの画像がモデルの出力に影響を与えるからです。AIに児童虐待の画像を見せ、誰かが「子供」といった中立的な質問をしただけでも、出力に虐待の文字が含まれてしまう可能性があります。

訓練に使用されたデータが違法でなくても、ステレオタイプを強化し、誤った情報を拡散させてしまいます。多くの法学修士(LLM)は、最も頻繁に目にした情報を真実である可能性が最も高いと判断します。そのため、消防士として男性の写真を多く目にし、「消防士」と尋ねた場合(この研究で行われたように)、出力として男性しか得られない可能性があります。

あなたのモデルには何が含まれていますか?

残念ながら、大手AIベンダーのほとんどは、トレーニングデータの正確な出所を公開していません。そのため、コンテンツが無断で盗用されたかどうか、またどの程度盗用されたのかを判断することも、潜在的なバイアスを調査することもできません。

コミュニケーションソフトウェアを開発するTwilioは最近、独自のAI栄養ラベルをリリースし、他のソフトウェア企業にも同様の取り組みを呼びかけています。同社はウェブサイトで、他のユーザーが利用できるサンプルの「栄養ラベル」も提供しています。しかし、これらのラベルの問題点は、顧客データをどのように利用するかに主眼が置かれており、使用されているモデルのトレーニングデータのソースが何であるかが考慮されていないことです。 

AI栄養成分表示

(画像提供:Twilio)

AIベンダーに求められるのは、透明性と知的財産権の尊重です。データが取得されたウェブサイトをすべてリスト化し、各パブリッシャーから明確な許可を得るべきです。ライセンスのないコンテンツは、学習データから削除する必要があります。

オンラインで出版する数千、あるいは数百万もの企業や個人から権利を確保するという考えが非現実的に思えるなら、これらのモデルは範囲が広すぎるのかもしれません。インターネット上で入手可能だからといって、たとえ上場企業であっても、盗用が許されるわけではありません。 

紛争鉱物問題に対する世論の圧力は、新たな法律の制定や、インテルなどの企業による半導体製造に使用される材料が倫理的に調達されたものであることを確認するためのポリシー策定につながりました。私たちも、AIソフトウェアの構築に使用される材料に同様の配慮を払うべき時が来ています。 

注: 当社のすべての論説と同様に、ここで表明された意見は執筆者個人のものであり、Tom's Hardware チームのものではありません。 

Avram Piltchは特別プロジェクト担当の編集長です。仕事で最新ガジェットをいじったり、展示会でVRヘルメットを装着したりしていない時は、スマートフォンのルート化、PCの分解、プラグインのコーディングなどに取り組んでいます。技術的な知識とテストへの情熱を活かし、Avramはノートパソコンのバッテリーテストをはじめ、数多くの実環境ベンチマークを開発しました。