
ロイター通信によると、コンテンツライセンスのスタートアップ企業TollBitによると、複数のAI企業がロボット排除プロトコル(robots.txt)を回避し、ウェブサイトから許可なくコンテンツを取得しているという。この問題はAI企業と出版社の間で紛争を引き起こしており、ForbesはPerplexityが自社のコンテンツを盗用したと非難している。
ロイターが入手したTollBitが出版社に宛てた書簡によると、多くのAIエージェントが、サイトの一部をクロールしないようにブロックするために使用されるrobots.txt標準を無視していることが明らかになった。同社の分析によると、様々なAIが許可なくデータを学習に使用しており、広範な不遵守の傾向が見受けられる。特に、AI検索スタートアップのPerplexityは、フォーブス誌から、AI生成の要約に適切な出典表記や許可なく調査記事を使用していると非難されている。Perplexityはこれらの疑惑についてコメントしていない。
1990年代半ばに作成されたrobots.txtプロトコルは、ウェブクローラーによるウェブサイトへの過負荷を防ぐことを目的としていました。法的強制力はないものの、伝統的に広く尊重されてきました――しかし、今となってはそうはなっていないようです。出版社は、このプロトコルを利用して、AIシステムによるコンテンツの不正利用をブロックしようとしています。AIシステムは、コンテンツをスクレイピングしてアルゴリズムを学習させ、要約を生成するためです。
ロイター通信によると、TollBitは「これは実際には、複数のソース(1社だけでなく)のAIエージェントがrobots.txtプロトコルを迂回してサイトからコンテンツを取得することを選択していることを意味します」と記している。「パブリッシャーのログを多く取り込めば取り込むほど、このパターンが顕著になります」
AIによるニュース要約の普及に伴い、この問題はますます深刻化しています。検索クエリに応じて要約を作成するGoogleのAI製品は、パブリッシャーの懸念を悪化させています。自社コンテンツがGoogleのAIに利用されるのを防ぐため、パブリッシャーはrobots.txtを使用してブロックしてきましたが、これは検索結果からコンテンツを削除し、オンラインでの可視性に影響を与えます。一方、AIがrobots.txtを無視するのであれば、コンテンツ所有者がrobots.txtを効果的に使用せず、オンラインでの可視性を失うことに何の意味があるのでしょうか?
TollBitもAIと編集コンテンツの競争に参入しており、AI企業と出版社の仲介役として、コンテンツ利用に関するライセンス契約の締結を支援しています。同社は出版社のウェブサイトへのAIトラフィックを追跡し、プレミアムコンテンツを含む様々なコンテンツの利用料交渉に役立つ分析情報を提供しています。TollBitは5月時点で50のウェブサイトがサービスを利用していると主張していますが、具体的なウェブサイト名は明らかにしていません。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
アントン・シロフはTom's Hardwareの寄稿ライターです。過去数十年にわたり、CPUやGPUからスーパーコンピュータ、最新のプロセス技術や最新の製造ツールからハイテク業界のトレンドまで、あらゆる分野をカバーしてきました。