26
OpenAI Soraのテキストから動画へのジェネレーターがデビュー – 結果は素晴らしいが、バグは残っている
OpenAI Soraが生成したビデオ静止画
(画像クレジット:OpenAI)

人工知能(AI)のパイオニアであるOpenAIは木曜日、新たな生成ツールを発表しました。「Sora」(日本語で「空」を意味する)と名付けられたこのツールは、OpenAIにとってこれまでで最も野心的な開発であり、テキストプロンプトのみで最大1分間の複雑な高解像度動画を生成できます。画像プロンプトも利用可能です。Soraはまだ一般公開されていません。OpenAIは、ツールの改良を進める間、アクセスを一部の研究者とビジュアルプロフェッショナルに限定することを決定したためです。重要なのは、この市場投入前の期間に、このツールが誤情報やヘイトコンテンツの作成などに利用されないよう、安全対策も実施されるということです。

Open AIの新しいテキスト動画変換ツール「Sora」。このテキストプロンプトは(単独で)動画の作成に使われました。「スタイリッシュな女性が、温かみのあるネオンとアニメーション化された街の看板で彩られた東京の通りを歩いています。彼女は黒いレザージャケット、赤いロングドレス、そして黒いブーツを履いています…」 —> pic.twitter.com/fK3ca9VcxI 2024年2月16日

早速、いくつか例を見てみましょう。写真が千の言葉を伝えるのと同じように、動画は毎秒数十フレームで同じことを表現できます。最初の例は、比較的複雑なプロンプトから切り取った1分間のクリップです。ここでは、Soraが力を発揮し、雨で濡れた東京のネオンに輝く街路と、優雅な主人公の動きを描き出しています。

OpenAIはSoraに関するブログ記事で、このプロンプトから動画を生成するツールは、複数のキャラクターが登場する複雑なシーンを、正確かつ現実に忠実なディテールで生成するように設計されていると説明しています。「このモデルは、ユーザーがプロンプトで何を求めているかだけでなく、それらが現実世界でどのように存在するかも理解します」とOpenAIは主張しています。例として、OpenAIは以下の動画を公開しています。しかし、森の中を乾燥した埃っぽい山道をジープが疾走するこの映像は、いかにも「ビデオゲーム」のようです。

OpenAIはSoraでTxT2Videoの多くの企業を圧倒しました。「プロンプト:カメラは、黒いルーフラックを備えた白いヴィンテージSUVの後ろを追う。急な山の斜面にある松の木に囲まれた険しい未舗装道路をスピードを上げて行く。タイヤから土埃が舞い上がり、… pic.twitter.com/Tl5lSKZlS4 2024年2月15日

ビデオゲームの技術について、ベテランのテクノロジー業界アナリスト、パトリック・ムーアヘッド氏は、生成された動画のほとんどでキャラクターとカメラが同時に動いており、「不気味の谷現象を引き起こすような細部に脳が気づかないように仕向けている」と推測しています。ソラは少なくとも部分的には、Unreal Engineから生成された合成動画を使って学習させられたと考える人もいます。

OpenAIが、自社のモデルに依然として弱点があることをためらわずに認めているのは良いことだ。ブログでは、Soraで生成された動画は「複雑なシーンの物理特性を正確にシミュレートするのに苦労する可能性があり、因果関係の具体的な事例を理解できない可能性がある」と説明している。さらに、OpenAIは再びいくつかの動画例を示している。5つの動画の中で、おそらく最も衝撃的なのは、ハイイロオオカミの子が登場する動画と、下に埋め込まれている「考古学者が砂漠でありふれたプラスチック製の椅子を発見し、細心の注意を払って発掘・清掃している」というプロンプトから生成された動画だろう。

このソラは頭がおかしくなりそう。正直言って、現実って一体何なんだろう。プロンプト:考古学者が砂漠でありふれたプラスチックの椅子を発見し、細心の注意を払って発掘して埃を払っている。pic.twitter.com/CuvvF2ro7I 2024年2月15日

OpenAIブログのこの動画の下には、ソラの失敗はモデルが椅子が剛体であることを理解できなかったためだと説明されています。修正にはそれほど時間はかからないでしょう…

安全性 – なぜ私たちは良いものを持てないのか

冒頭で安全性について簡単に触れましたが、Soraのような生成AIツールが一般の人々によって様々な悪意ある目的で使用されることは明らかです。しかし、OpenAIは当然のことながら、Soraが本格的に稼働する前に安全対策を実装し、一部の人々が生成しようとする悪質な行為の波を緩和したいと考えています。

Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。

OpenAIのブログでは具体的に、最初のテスターと協力して「誤情報、憎悪的なコンテンツ、偏見」の生成を防ぐと述べている。さらに、動画におけるそのようなコンテンツの防止と検出のための措置も講じている。その他の禁止課題のトピックには、「極端な暴力、性的コンテンツ、憎悪的な画像、有名人の肖像、または他者の知的財産」が含まれる。

偽の音声や動画の録画はこれまでにもニュースの見出しを飾り、さまざまな反響を呼んだことがあるため、責任ある開発者にとって、Sora の出力範囲を抑制することは優先事項である可能性がある。

Soraは、私たちが目にした最初のテキスト動画生成ツールではありませんが、これまでで最も先進的で複雑かつリアルな生成ツールです。Soraの影響はコンピューターやテクノロジーニュースの領域をはるかに超えて、大きな影響を与えるだろうと多くの人がコメントしています。

マーク・タイソンはトムズ・ハードウェアのニュース編集者です。ビジネスや半導体設計から、理性の限界に迫る製品まで、PCテクノロジーのあらゆる分野を網羅的にカバーすることに情熱を注いでいます。