
カーネギーメロン大学の研究チームは、テキスト入力から有効なレゴデザインを出力する「LegoGPT」と呼ばれるAIモデルを構築しました。GitHubに投稿された研究論文によると、彼らは「次トークン予測を用いて次に追加するブロックを予測する自己回帰大規模言語モデル」を学習させたとのことですが、重要なのは、AI LLMがレゴデザインをゼロから作成するという点です。
AIは、本棚、テーブル、椅子、車、船、ギターなど、28,000種類以上のユニークな3Dオブジェクトを組み立てられる47,000個以上のレゴ構造物を含むデータセットで学習しました。このデータセットを用いてAIモデルを学習させることで、テキスト入力のみからユニークで独創的なデザインを作成できるようになりました。
チームは自己回帰推論中に妥当性チェックと物理法則を考慮したロールバックを追加し、最終出力が常に有効(つまり、重なり合うブロックがない)かつ安定(つまり、浮いたブロックがない)であることを保証しました。さらに、LegoGPTの最終出力は人間とロボットの両方で構築できます。
チームは、LegoGPTの学習に使用したデータセット「StableText2Lego」をこのように作成しました。まず、テキストプロンプト入力をShapeNetCoreメッシュに変換します。次に、これを20 x 20 x 20のボクセルグリッドに挿入し、そこからレゴブロックの初期配置を決定します。
テキストから新しいデザインを作成する仕組みは、次のとおりです。LegoGPTはテキストをレゴデザインに変換し、それを下から上へと順序付けられたテキストトークンに変換します。次に、構造化されたレゴブロックとデザインを説明する注釈をペアリングするための指示を作成します。これにより、AIはテキストプロンプトと実際のブロックの関係を理解できるようになります。
Tom's Hardware の最高のニュースと詳細なレビューをあなたの受信箱に直接お届けします。
そこから、LegoGPTは自己回帰モデルを用いて、設計図を組み立てるために必要な次のブロックを予測します。つまり、各ステップでブロックの妥当性を検証し、適切なフォーマットであるか、ライブラリに存在するか、既存のブロックと重複していないかを確認します。これは設計図が完成するまで続けられ、その後、安定性がテストされます。
AIが出力が不安定であると判断した場合、最後の安定状態までロールバックし、そこから生成を続けます。最終的な出力が安定すると、設計は完了します。
AIを自分で試してみたいという方のために、チームはデータセット、コード、モデルを公開しており、誰でも簡単にチームの成果をフォークできます。今後の展開としては、誰かがこれをカスタマイズ可能なブロックライブラリを備えたダウンロード可能なAIアプリに変換することが挙げられます。
Google ニュースで Tom's Hardware をフォローすると、最新のニュース、分析、レビューをフィードで受け取ることができます。「フォロー」ボタンを忘れずにクリックしてください。
ジョウィ・モラレスは、長年のテクノロジー業界での実務経験を持つテクノロジー愛好家です。2021年から複数のテクノロジー系出版物に寄稿しており、特にテクノロジー系ハードウェアとコンシューマーエレクトロニクスに興味を持っています。