32
Google、「YouTube-8M」データセットで動画理解研究を加速

YouTube-8M 動画ラベル

YouTube-8M 動画ラベル

Googleは、動画理解のための機械学習研究の加速を支援するため、ラベル付き動画800万本のデータセットを公開すると発表しました。このデータセットはYouTube-8Mと呼ばれています。

ビデオ用ImageNet

多くのテクノロジー企業は、数百万枚のラベル付き画像からなるImageNetデータセットを用いて、自社のチップやアルゴリズムの性能をベンチマークしてきました。これにより、静止画像内の物体分類能力の向上に努め、長年にわたり技術の向上に努めてきました。

Googleは現在、動画でも同様の取り組みを目指しており、YouTube-8Mデータセットを公開しています。このデータセットには、800万件のYouTube URL(動画50万時間分相当)と、Google独自のナレッジグラフから抽出された4,800件の動画ラベルが含まれています。

これまで最大の動画データセットであったSports-1Mには、100万件のYouTube動画URLと500個のラベルが含まれていました。そのため、YouTube-8Mでは動画数とラベル数がほぼ1桁増加します。この複雑性の増加は、研究者のニューラルネットワークが学習する内容が増え、ニューラルネットワークの精度向上につながることを意味します。

課題

Googleはデータセットを作成する前にいくつかの課題に直面しました。その一つは、動画は画像よりも手動でアノテーションを付与するのが難しいことです。これは、動画を視聴して内容を理解するのに時間がかかるためです。この問題を解決するために、GoogleはYouTubeの機械生成ラベルに頼らざるを得ませんでした。しかし、Googleはこれらのラベルがベンチマークや研究目的に役立つほど十分に正確であると考えています。

動画の品質を十分に確保するため、同社は再生回数が1,000回以上の動画を選定しました。また、動画内の「実体」が容易に観察できるかどうかを判断するために、他の自動化ツールも使用しました。

動画は計算負荷がはるかに高く、Googleにとってもう一つの課題となりました。通常、YouTube-8Mデータセットに含まれる50万時間分の動画すべてを処理するには、1ペタバイト(PB)のストレージと数十CPU年分の処理能力が必要になります。つまり、学生を含むほとんどの研究者にとって、容易に利用できるデータではないということです。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

この問題を解決するため、Googleは動画を前処理し、ImageNetで学習済みの公開ディープラーニングモデル「Inception-V3」を用いてフレームレベルの特徴を抽出しました。抽出された特徴はさらに圧縮され、1.5TBのドライブに収まります。これにより、ほぼ誰でもインターネット経由でデータセットをダウンロードできるようになります。その後、TensorflowディープラーニングフレームワークとGPUを用いて、1日もかからずに新しいディープラーニングモデルを学習できます。

Googleは、YouTube-8Mデータセットにより、学生を含む世界中の研究者が自分のコンピュータで大規模なデータセットを扱えるようになるため、動画理解に関する研究が大幅に加速すると考えています。同社は今回の発表に合わせて技術レポートも公開しました。

ルシアン・アルマスは、Tom's Hardware USの寄稿ライターです。ソフトウェア関連のニュースやプライバシーとセキュリティに関する問題を取り上げています。