
テキストから動画への変換は、AIにおける次の大きなトレンドです。数週間前、AIが生成したペパロニ・ハグスポットのCMがいかに素晴らしい(そして少し不気味)ものだったかをご紹介しました。このCMを開発したPizza Later社によると、このプロジェクトの動画制作にはRunway Gen-2というツールを使用したとのことです。このテキストから動画への変換エンジンにより、「レストランでピザを食べる幸せそうな男性/女性/家族、テレビCM」といった簡単なプロンプトを与えるだけで、写真のようにリアルなコンテンツを作成できたそうです。
Runway Gen-2のパブリックベータ版にアクセスできたのですが、そのリアルな出力には本当に感動しました。動画はそれぞれ4秒と短いですが、画質は素晴らしく、Runway MLのDiscordサーバー上のボットに短いリクエストを送信するだけで動作します。
プロンプト滑走路 Gen-2
Runway Gen-2のプロンプトは、「@Gen-2 カメラを見ながら口から小さなネジを吐き出している酔っ払いのヒューマノイドロボット」のような感じになります。ボットはすぐにプロンプトと、使用しているパラメータ(例:「アップスケーリング」)を返します。これらのパラメータは、新しいプロンプトを発行することで変更できます(詳細は後述)。数分後、プロンプトに基づいた4秒間の動画が表示されます。
酔っ払ったロボットの出来栄えはこんな感じです。動画はすべてDiscord内で再生でき、MP4ファイルとしてダウンロードできます。この記事で紹介した動画サンプルはすべて、より見やすく(プレロール広告なしで)アニメーションGIFに変換してあります。
上の動画は、私が求めていたものとは少し違っていることにお気づきでしょう。ロボットは私が意図したようにネジを吐き出していません。その代わりに、ただビールの入ったカップを威嚇するように見つめているだけです。このプロンプトで試した他の動画も、私の求めていたものとは少し違っていました。「酔っ払い」という言葉を省いてしまったら、ロボットは口を開けたものの、何も吐き出さなくなってしまいました。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
滑走路 Gen-2 プロンプトで画像を使用する
ボットに画像を送るには、テキストプロンプトと一緒にコピー&ペーストするか、画像のURLをプロンプトに入力します。ただし、Runway Gen-2はアップロードされた画像を実際に使用するわけではありません。画像からインスピレーションを得て独自の動画を作成するだけです。私は自分の画像を何度もアップロードしましたが、少し似ているものの、明らかに私ではない人物の動画が表示されました。
例えば、私が自分の写真をアップロードし、それ以上の情報を何も入力しなかったとき、そこには私ではない、サングラスをかけた薄毛の中年男性が川と建物の横に立っている写真が映っていました。彼の口が動いて、水も動いていました。
Runway Gen-2ボットは、提供された画像の感情やトピックを模倣するのが得意です。私は、自分が嫌悪感を表わした画像を見せ、「カメラを見て『うわっ』と口にしているこの男性」をリクエストしました。
Discord サーバーの多くのユーザーは、Midjourney や Stable Diffusion などの別の AI ツールで静止画像を生成し、その画像を Hugging Face の CLIP Interrogator 2.1 に送ることで素晴らしい結果が得られたと述べています。Hugging Face は画像を見て、その画像を参照していると思われるプロンプトを表示するツールです。
実際にその方法を試してみました。Stable Diffusionを使って、1980年代に歩道でおもちゃのロボットで遊んでいる少年の画像を作ってもらいました。次に、その画像をCLIP Interrogatorに読み込んで、「ロボットの隣に立っている少年」といった、かなり分かりやすいサンプルプロンプトをいくつか生成しました。しかし、同じ画像をプロンプトに入力しても、私の求めていた結果が得られませんでした。道路の前に2体のロボットと立っている少年の画像は生成されましたが、それは同じ道路でも少年でもありませんでした。
動くか動かないか
時間制限があるということは、各クリップで動きを捉える時間が限られていることを意味します。それに加え、多くのクリップで動きがほとんどないことに気付きました。多くの場合、誰かの頭が揺れたり、液体が流れたり、火から煙が上がったりする程度でした。
動きをもっと加える良い方法は、タイムラプスやパンニングなどの撮影をリクエストするプロンプトを表示することです。アイスランドの火山のタイムラプスやニューヨークの地下鉄のパンニングショットをリクエストしたところ、なかなか良い結果が得られました。一方、台北のスカイラインのパンニングショットをリクエストしたところ、雲は動いていましたが、パンニングはされず、明らかに台北の街ではありませんでした。
画像
1
の
3

アイスランドの火山
走る、追いかける、乗るといった動作を指示しても、うまくいかないことがあります。「カメがスケートボードをしている」と指示すると、奇妙なカメのような動物が猛スピードで道を転がっていく画像が表示されました。一方、「IntelとAMDのボクサーが戦っている」と指示すると、全く動かない2体のボクサーの画像が表示されました(IntelとAMDのロゴはどちらにもありませんでした)。
Runway Gen-2の長所と短所
他のAI画像ジェネレーターと同様に、Runway Gen-2は特定のブランドキャラクター、製品、場所の再現にはあまり向いていません。マリオとルイージがボクシングをしている動画をリクエストしたところ、任天堂のキャラクターのパクリのようなキャラクターが2つ生成されました。ゴジラの動画を何度もリクエストしたところ、ごく普通のファンでさえ怪獣王と間違えるほど巨大なトカゲが生成されたのです。
マインクラフトのネタは少しだけマシになりました。ピザを食べているクリーパーとエンダーマン、そしてマクドナルドでクリーパーを食べているクリーパーをリクエストしたところ、クリーパーはまあまあな見た目でしたが、エンダーマンは不正確なものでした。ピザを食べているクリーパーの家族をリクエストしたところ、まるでマインクラフトから来たかのような人型の家族が返ってきました。マインクラフトをプレイしたことがある人なら誰でも、クリーパーが黒い斑点のある緑色のモンスターだということは知っていますよね。
画像
1
の
2

このツールはロゴの扱いがひどい。Tom's HardwareのロゴをCMで使ってほしいと頼んだら、こんな変な画像が返ってきた。
燃えている AMD Ryzen CPU を要求したところ、自分の目で確かめるしかないロゴが付いた PCU のようなものが届きました (下記参照)。
Runway Gen-2の優れた点は、食事などの場面で人々や家族がとっている一般的な画像を提供することです。ただし、必ずしも希望通りのものを実際に食べてくれるとは限りません。生きたミミズを食べている家族をリクエストしたところ、サラダを食べているように見える家族が返ってきました。1970年代のピザレストランで寿司を食べている家族は、特にリアルに見えました。
人種を指定せずに人物を尋ねると、ほぼ常に白人が返ってきたことを指摘せざるを得ません。白人以外の家族(または人物)を具体的に尋ねなかったのに、唯一白人以外の家族(または人物)が返ってきたのは、寿司を食べている家族を尋ねた時です。これは、多くの生成AIモデルの学習データでよく見られる問題です。
特別なパラメータ
Runway Gen-2では、プロンプトの末尾に追加して出力を少し変更できるパラメータがいくつかあります。私はあまりいじりませんでした。
- --アップスケールはより高い解像度を実現します
- --interpolate はビデオをより滑らかにする
- --cfg [数値] はAI の創造性のレベルを制御します。値が大きいほど、要求された結果に近づきます。
- --green_screen編集時に使用できるグリーンスクリーン領域を含むビデオを出力します
- --seed は結果を決定するのに役立つ数値です。デフォルトでは毎回ランダムな数値になりますが、同じ数値を再度使用すると、同様の結果が得られるはずです。
すべてをつなぎ合わせる
Runway Gen-2の動画の例をインターネットで検索すると、4秒以上の長さで音声付きの動画が多数見つかることに気づくでしょう。これらの動画は、動画編集ソフトで4秒の様々なクリップをつなぎ合わせ、他で入手した音声や音楽を追加することで作成されています。
Runway Gen-2の動画の中で最も有名なものの一つは、先ほど触れたHugspotのペパロニピザのCMです。しかし、Runway MLのDiscordでは、多くの人が自分の作品のYouTubeリンクを投稿しているのを見かけます。私のお気に入りの一つは、Andy McNamaraがTwitterに投稿した「Spaghetti Terror」です。Pizza Laterの新しい弁護士CMも最高に面白いです。
結論
Runway Gen-2はこの記事を書いている時点ではプライベートベータ版ですが、同社はGen-1製品と同様に、近日中に一般公開する予定だと発表しています。技術デモとしては非常に印象的で、ストックビデオやストックアニメーションGIFの代わりに、この短いクリップを使う人もいるかもしれません。
たとえ再生時間が60秒に延長されたとしても、このツールがプロが(あるいはアマチュアが)撮影した動画をすぐに置き換えることは難しいでしょう。非常に具体的な場所や人物を正確に再現できないのは大きな欠点ですが、これはこれまでのあらゆる画像生成AIに見られた限界でもあります。しかし、必要な技術はすでに存在しており、学習データの規模が拡大すれば、さらに素晴らしいものになるかもしれません。
Avram Piltchは特別プロジェクト担当の編集長です。仕事で最新ガジェットをいじったり、展示会でVRヘルメットを装着したりしていない時は、スマートフォンのルート化、PCの分解、プラグインのコーディングなどに取り組んでいます。技術的な知識とテストへの情熱を活かし、Avramはノートパソコンのバッテリーテストをはじめ、数多くの実環境ベンチマークを開発しました。