ChatGPTのようなLLM(法務・法務・経営学)は必要なテキストを生成し、Stable Diffusionのようなグラフィックジェネレーターはプロンプトに基づいて画像を生成しますが、テキストから動画へのAI変換はまだ発展途上の分野です。今週初め、テキストから動画へのAI変換ツール「Runway Gen-2」を動画に使用したピザのAIコマーシャルについてお伝えしました。ただし、現在Runway Gen-2は招待制のベータ版です。そのため、招待を受けない限り、試用することはできません。
幸いなことに、Hugging Face(大手AI開発者ポータル)には、NeuralInternet Text-to-Video Playgroundという完全に無料で使いやすいツールがあります。ただし、再生時間はわずか2秒に制限されており、アニメーションGIFを作成するにはギリギリです。Hugging Faceのアカウントがなくても使えます。使い方は以下のとおりです。
2秒間のAIテキスト動画クリップを生成する方法
1.ブラウザでText-to-Video プレイグラウンドに移動します。
2.プロンプトボックスにプロンプトを入力するか、ページの下部にあるサンプルプロンプトのいずれかを試してください(例:「馬に乗る宇宙飛行士」)
3.シード番号を入力します。シードとは、AIが画像生成の起点として使用する数値(-1~1,000,000)です。つまり、シードを1にすると、毎回同じプロンプトで同じ出力が得られます。シードを-1にすると、毎回ランダムなシード番号が生成されるので、お勧めです。
4. 「実行」をクリックします。
Text-to-Video Playground が結果を生成するまで数分かかります。進捗状況は結果ウィンドウで確認できます。サーバーのトラフィック量によっては、さらに時間がかかる場合があります。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
5.再生ボタンをクリックしてビデオを再生します。
6.ビデオを右クリックし、「名前を付けてビデオを保存」を選択して、ビデオを (MP4 として) PC にダウンロードします。
使用しているモデルと結果
Text-to-Videoプレイグラウンドは、ModelScopeという中国企業のテキスト動画変換モデルを使用しています。ModelScopeは、このモデルが17億個のパラメータを持つと主張しています。画像を扱う多くのAIモデルと同様に、ModelScopeモデルにも2秒の実行時間以外にもいくつかの制限があります。
また、すべてが本来の姿で見えるわけではありません。例えば、鋭い怪獣ファンなら、下のゴジラがピザを食べる動画で、巨大な緑色のトカゲの怪獣が映っていることに気づくでしょう。しかし、誰もが大好きな日本の怪獣の特徴は全く見られません。
最後に、言うまでもないかもしれませんが、これらの動画には音声がありません。一番の活用法は、アニメーションGIFに変換して友達に送ることです。上の画像は、ゴジラがピザを食べる2秒間の動画から作ったアニメーションGIFです。
AI での作成について詳しく知りたい場合は、Auto-GPT を使用して自律エージェントを作成する方法や BabyAGI を使用する方法に関する記事をご覧ください。
Avram Piltchは特別プロジェクト担当の編集長です。仕事で最新ガジェットをいじったり、展示会でVRヘルメットを装着したりしていない時は、スマートフォンのルート化、PCの分解、プラグインのコーディングなどに取り組んでいます。技術的な知識とテストへの情熱を活かし、Avramはノートパソコンのバッテリーテストをはじめ、数多くの実環境ベンチマークを開発しました。