SceneScript将3D重建视为一个语言问题,而不是几何问题。 该模型观看一个房间的视频,并学习为其编写脚本。它自回归地输出文本命令,如make_wall(...)或make_bbox(...),以定义场景。 斯坦福大学的新论文“场景语言”更进一步,添加了CLIP嵌入,以捕捉视觉外观。 语言模型已经足够理解空间关系,以便写出场景图,这一点相当惊人。
100.47K