
Metaとオックスフォード大学の科学者による新たな研究論文では、スケーラブルな3Dモデルを生成するための強力なAI駆動型技術が概説されています。VFusion3Dは、AIの学習とコンテンツ生成に必要な3Dデータの不足に対処します。そのため、VFusion3Dは既存の3Dモデルではなく、テキスト、画像、動画に基づいて学習します。
研究者らは、VFusion3Dは「1枚の画像から数秒で3Dアセットを生成できる」と主張しており、高品質で忠実な結果を示している。これらのスケーラブルな3Dモデルが期待通りの性能であれば、ゲーム、VR、デザイン業界で多くの作業を軽減できる可能性がある。
画像
1
の
3

研究者たちは、物体のパンショットやドローン映像など、様々な動画を組み合わせて学習させた「EMU Video」と呼ばれる動画モデルを選択しました。研究者によると、このような動画ソースは「本質的に3D世界に関する手がかりを含んでいる」とのことです。その結果生まれたVFusion3Dは、視点に関わらず「一枚の画像から高品質な3Dアセットを生成できる」と謳われています。ユーザー調査もこの主張を裏付けています。
科学者たちは、新モデルのテストに加え、競合する蒸留ベースおよびフィードフォワード型の3D生成モデルと比較しました。結局のところ、このタスクをターゲットとするツールはこれが初めてではありません。MetaのJunlin Han氏は、GitHubプロジェクトページでVFusion3Dの品質とパフォーマンスの比較について説明しています。同じページでは、VFusion3Dと競合製品のアニメーションオブジェクトをソース(入力)画像と比較したセレクションもご覧いただけます。ギャラリーにはいくつかの比較画像が掲載されています。
VFusion3Dを試してみたい方は、オンラインデモをご利用いただけます。サンプル画像から3Dモデルを生成・ダウンロードしたり、ソースコードをアップロードしたりできます。執筆時点では、このデモは「ビジー状態」のため応答しませんでした。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
マーク・タイソンはトムズ・ハードウェアのニュース編集者です。ビジネスや半導体設計から、理性の限界に迫る製品まで、PCテクノロジーのあらゆる分野を網羅的にカバーすることに情熱を注いでいます。