SceneScript 將 3D 重建視為一個語言問題,而不是幾何問題。 該模型觀看一段房間的視頻,並學會為其編寫腳本。它自回歸地輸出文本命令,如 make_wall(...) 或 make_bbox(...),這些命令定義了場景。 斯坦福大學的新 "場景語言" 論文更進一步,添加了 CLIP 嵌入以捕捉視覺外觀。 語言模型已經能夠很好地理解空間關係,足以寫出場景圖,這實在是太驚人了。
100.47K