Google は AI スクレイピングを「フェアユース」とみなすことを望んでいる。法廷で認められるだろうか?

（画像クレジット：Shutterstock）

もし私がこんなことを試したらどうなると思いますか？銀行にふらりと入ってみると、誰もいない窓口の向こうに、手の届くところに札束が置いてあるのが目に入ります。その札束を掴んで、ドアから出ようとしたその時、警察官が無礼にも私を止めます。「このお金を受け取る権利があります」と私は言います。「銀行で誰も私にそれを取ってはいけないと指示していないのですから」

機械学習は現在フェアユースの一形態ですか?

作品の目的：使用目的は研究、報道、それとも論評でしょうか？作品に新たな何かを加えたり、作品の性格を変えたりする「変革的」な使用でしょうか？
原作の性質：小説、歌、映画といった創作表現は、事実に基づくものよりも保護が強化されます。事実自体は保護されませんが、その表現は保護されます。
複製された作品の量:必要以上に元のコンテンツを使用しましたか?
オリジナル作品市場への影響：あなたの作品はオリジナル作品と競合したり、人々がオリジナル作品を購入する可能性を低下させたりしていませんか？もしそうであれば、フェアユースに反する行為です。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

証言の数週間前にサグ氏にインタビューした際、彼はフェアユースの認定はAIボットの出力が学習に使用した作品にどれだけ類似しているかに大きく左右されると語っていた。「法学修士（LLM）の出力があまり類似していなければ、一般的にフェアユースとなるでしょう」と彼は言った。

Google SGE はテキストを逐語的にコピーします

しかし、以前の記事で述べたように、GoogleのSGE（Search Generative Experience）はまだベータ版ですが、間もなくデフォルトのエクスペリエンスになる可能性が高いのですが、学習データからテキストを逐語的にコピーすることが多く、盗用元を隠そうともしません。例えば、「iPhone 14」とGoogle検索すると、iPhone 14を購入する際に考慮すべき3つの項目が箇条書きで表示されました。それぞれの項目は、gizchina.com、androidauthority.com、uswitch.comといった異なるウェブページから逐語的に引用されたものでした。

引用符ボタンをクリックするとテキストがハイライト表示されるので、元のソースを探す必要はありませんでした。Googleの擁護者たちはこれらの引用符は引用であり、貴重なバックリンクだと主張するかもしれませんが、どちらでもありません。真の逐語的な引用は引用符で囲まれ、出典が直接示されます（例：「Gizchina.comによると…」）。これらはアイコンの背後に埋め込まれた関連リンクであり、コンテンツがリンク先のサイトからのみコピーされた場合でも、2つまたは3つのリンクが表示されることがよくあります（コンテンツの出所を特定するには、3つのサイトすべてを調べる必要があります）。

どんなビジネスを営んでいようとも、ウェブサイトを運営しているなら、成功するには人々に訪れてもらう必要があります。収益を広告やeコマースリンクに頼っているなら、読者にそれらを見てクリックしてもらう必要があります。コンテンツ閲覧に購読料を支払ってもらうには、購読する前にまずあなたのサイトを見つけてもらう必要があります。Googleは全検索の91～94%を占める検索市場を独占しており、SGEによってGoogleはその独占力を利用して、コピー元の記事よりも質の低い独自のAIによる回答を押し付けています。

創作物からのコピー

Googleが自社ページ上の広告と検索ユーザーから収集するユーザーデータから収益を得ていることを考えると、ディズニーやワーナー・ブラザーズといった大手クリエイティブ企業の弁護士が訴訟を起こせば、有利な立場に立つように思える。興味深いことに、テキスト入力を楽曲に変換するGoogleのMusicLMツールは、私が「あるミュージシャンのサウンド」や「あるミュージシャンのスタイル」の楽曲を作るように依頼した際に、一切拒否してきた。

Googleにとっての問題は、登場人物やストーリーラインを再現しているという点ではなく、取り込むすべての書籍の文体を巧妙に模倣している点にあるかもしれない。小説家ポール・トランブレイ氏とモナ・アワド氏の弁護士は、OpenAIに対する訴訟において、OpenAIの言語モデル全体が、たとえ特定の書籍の登場人物や状況について直接言及していなくても、著作権を侵害していると主張している。原告らは、書籍のテキストは長文テキストの優れた例となるため、LLMの文章作成訓練において重要な要素であると指摘している。このデータにより、モデルは命令に応じて物語、詩、さらには詳細な事実に基づく回答さえも作成できる。

スクレイピングは違法ですか？

2006年のField対Google訴訟において、ある作家がGoogleに対し、自身の著作51点をGoogleのキャッシュに保存したとして提訴しました。キャッシュは、読者が検索結果ページにアクセスした際に閲覧可能です。裁判所は、Googleのキャッシュは「変形的」であり、アーカイブ目的で情報を保持し、読者がその変更を追跡できるようにするため、フェアユースに該当すると判断しました。

機械学習は法的にも道徳的にも人間の学習と同等であり、インターネット上のあらゆるページを読み、要約する時間があれば、誰も疑問を抱かないだろうと主張する人もいます。「法学修士課程を修道院の書記のように訓練データをコピーすると考えるのではなく、学生のように訓練データから学習すると考える方が理にかなっています」とセージ氏は上院での証言で述べています。

機械が人間のように学習する権利があるかどうかという問題は、別の記事に譲ることにします。しかし、人間の経験とデジタル複製の間には明確な法的区別があることは誰もが知っています。コンサートに行って、それを永遠に記憶に残し、記事にすることさえできますが、録音を許可なく公開することはできません。

オプトインとオプトアウト

自分のコンテンツが学習データとして利用されることに不満がある場合、Googleは一見すると妥当な妥協案を提示しています。Googleの声明によると、機械学習へのコンテンツ利用をオプトアウトできるようになるとのことです。これは、おそらくWeb検索のオプトアウトと同じように、robots.txtファイルやページ上のMETAタグを使ってボットに近づかないよう指示するといった形で機能すると思われます。

7月に、Googleの信頼担当副社長ダニエル・ロマン氏は、robots.txtに言及し、今日のウェブには機械学習をブロックするために同様のものが必要だと述べたブログ記事を公開した。

「新たな技術の出現は、ウェブコミュニティにとって、ウェブの将来の発展を支える標準やプロトコルを進化させる機会をもたらします。コミュニティが開発したウェブ標準の一つであるrobots.txtは、約30年前に作成され、ウェブパブリッシャーが検索エンジンによるコンテンツのクロール方法を制御できるシンプルで透明性のある方法であることが証明されています」とロマン氏は記しています。「ウェブとAIコミュニティは、新たなAIや研究のユースケースにおいて、ウェブパブリッシャーの選択と制御のための、機械可読な手段をさらに探求すべき時が来たと考えています。」

一部の出版社は既にウェブサイトに「立ち入り禁止」に相当する条項を利用規約として掲載している。しかし、Googleは今のところこれを無視している。最近、ニューヨーク・タイムズは利用規約を更新し、「機械学習や人工知能（AI）システムのトレーニングを含むがこれに限定されない、あらゆるソフトウェアプログラムの開発にコンテンツを使用すること」を禁止した。これが法廷で執行可能かどうかはまだ分からない。

真に公正な利用とはどのようなものか

解決策はシンプルです。AIボットに、専門家である人間と同様に知的財産を尊重させることです。SGEやBardが出力するすべての事実とアイデアには、テキスト内にディープリンク付きの直接的なインライン引用を含めるべきです。文章を逐語的に引用する場合は、引用符で囲む必要があります。

ボットは、自らが出力する答えを「創造する」万能の天才であると主張するのではなく、読者に役立つ一次資料を要約し、導くことを仕事とする謙虚な司書として自らを示すべきです。真に有用なボットとはまさにこのことです。

Googleが新しい法律を望む理由

上記の各コンテンツコピーにはフェアユースの抗弁が認められる可能性があるものの、Googleがいずれか、あるいは全てにおいて敗訴するリスクは明らかに存在します。裁判所は、Googleによる情報テキストの逐語的なコピーを著作権侵害と判断する可能性があり、出版社に巨額の損害賠償を命じる可能性があります。

注: 当社のすべての論説と同様に、ここで表明された意見は執筆者個人のものであり、Tom's Hardware チームのものではありません。

Avram Piltchは特別プロジェクト担当の編集長です。仕事で最新ガジェットをいじったり、展示会でVRヘルメットを装着したりしていない時は、スマートフォンのルート化、PCの分解、プラグインのコーディングなどに取り組んでいます。技術的な知識とテストへの情熱を活かし、Avramはノートパソコンのバッテリーテストをはじめ、数多くの実環境ベンチマークを開発しました。

Tips