SceneScript považuje 3D rekonstrukci za jazykový problém, nikoli za problém geometrie. Model se dívá na video z místnosti a teprve se k němu učí psát scénář. Autorsky chrlí textové příkazy jako make_wall(...) nebo make_bbox(...), které definují scénu. Nový článek "Scene Language" ze Stanfordu jde ještě o krok dále a přidává vkládání CLIP pro zachycení vizuálního vzhledu. Skutečnost, že jazykové modely již rozumí prostorovým vztahům dostatečně dobře na to, aby zapisovaly grafy scén, je docela divoká.
100,46K