SceneScript considère la reconstruction 3D comme un problème de langage plutôt que de géométrie. Le modèle regarde une vidéo d'une pièce et apprend simplement à écrire un script pour cela. Il génère de manière autoregressive des commandes textuelles comme make_wall(...) ou make_bbox(...) qui définissent la scène. Le nouveau papier "Scene Language" de Stanford va encore plus loin en ajoutant des embeddings CLIP pour capturer l'apparence visuelle également. Le fait que les modèles de langage comprennent déjà les relations spatiales suffisamment bien pour écrire des graphes de scène est assez incroyable.
100,52K