SceneScript розглядає 3D-реконструкцію як проблему мови, а не як геометрію. Модель дивиться відео кімнати і просто вчиться писати для неї сценарій. Він авторегресивно видає текстові команди на кшталт make_wall(...) або make_bbox(...), які визначають сцену. Новий документ Стенфордського університету "Мова сцен" йде ще далі, додаючи вбудовування CLIP для захоплення візуального вигляду. Той факт, що мовні моделі вже розуміють просторові відносини досить добре, щоб виписувати графіки сцен, є досить диким.
100,47K