
AppleやNVIDIAなど、世界有数の富裕層企業が、YouTube動画をスクレイピングしてAIを訓練データとして利用していたとされる無数の企業に名を連ねています。YouTubeのトランスクリプトはYouTubeの利用規約に違反する手段で収集されたと報じられており、一部のクリエイターを激怒させています。このニュースは、Proof NewsとWiredの共同調査で初めて発覚しました。
大手AI企業やプロデューサーはAIトレーニングデータを秘密にしていることが多いですが、Apple、Nvidia、Salesforceといった大手企業は、EleutherAIが作成した800GBのトレーニングデータセット「The Pile」と、その中に含まれるYouTube字幕データセットを使用していることを明らかにしました。YouTube字幕のトレーニングデータは、YouTubeサイトからスクレイピングされた173,536件のYouTubeプレーンテキストトランスクリプトで構成されており、2020年のデータセット作成以降に削除された12,000本以上の動画が含まれています。
EleutherAIは、AIトレーニング分野で相当な規模の存在です。この非営利AI研究機関は、AIを一般向けに「民主化」することを目指す多くの機関の一つであり、ウェブサイトでは「基礎モデルの研究が少数の企業に限定されないようにする」という目標を掲げています。PileデータセットとYouTube字幕データセットは、まさにこの目的のために作成され、自宅でAIコーディングをする、ごくわずかな人材にも高品質なトレーニングデータを提供することを目指しています。しかし、Pileデータセットで一般のAI開発者を支援するというこの理想的な夢は、DIYユーザーではなく大企業がAIをトレーニングするための新たな原動力となっています。
被害を受けた多くの人々は、コンテンツの使用に強く反発しています。YouTubeチャンネル「Philosophy Tube」のプロデューサーであり、「House of the Dragon」の女優でもあるアビゲイル・ソーンは、X(旧Twitter)で次のように述べています。「このことを知らされた時、床に倒れ込んで泣きました。あまりにもひどいことで、もう二度と執筆をやめたくなりました。でも、立ち上がれたのは、視聴者が私の番組に来るのは、安っぽい偽物のAIコンテンツではなく、真の繋がりとアイデアを求めているからだと思っています。」
彼女は続けて、「YouTubeには、このような盗難を防ぐためにもっと努力してほしい」と述べた。ソーン氏と他のYouTuberたちは、動画を最初にスクレイピングしたり、後でトレーニングデータとして使用したりすることを誰も要求していないことを確認している。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
記録の使用について誰も責任を認めようとしないという事実により、誰に責任を負わせるべきかは困難を極めている。トレーニングデータを使用したAppleなどの大手テクノロジー企業は、スクレイピングを行っていないため非難を免れているが、トレーニングデータの倫理的な入手方法については、企業内で議論する必要がある。データセットの作成者であるEleutherAIは、どの出版物からのコメント要請にも応じておらず、Pileに関する最初の研究論文の中で、いかなる不正行為や損害も否定している。
サニー・グリムはTom's Hardwareの寄稿ライターです。2017年からコンピューターの組み立てと分解に携わり、Tom'sの常駐若手ライターとして活躍しています。APUからRGBまで、サニーは最新のテクノロジーニュースを網羅しています。