SceneScript は、3D の再構築をジオメトリの問題ではなく、言語の問題として扱います。 モデルは部屋のビデオを見て、その部屋のスクリプトを書くことを学びます。シーンを定義する make_wall(...) や make_bbox(...) などのテキスト コマンドを自己回帰的に吐き出します。 スタンフォード大学の新しい論文「Scene Language」は、さらに一歩進んで、視覚的な外観をキャプチャするためのCLIP埋め込みも追加しています。 言語モデルが既に空間的な関係を十分に理解しており、シーングラフを書き出すことができるという事実は、かなり荒唐無稽です。
100.47K