SceneScript trata la reconstrucción 3D como un problema de lenguaje en lugar de uno de geometría. El modelo observa un video de una habitación y simplemente aprende a escribir un guion para ello. Genera de forma autoregresiva comandos de texto como make_wall(...) o make_bbox(...) que definen la escena. El nuevo artículo de Stanford "Scene Language" va un paso más allá al añadir embeddings de CLIP para capturar también la apariencia visual. El hecho de que los modelos de lenguaje ya entiendan las relaciones espaciales lo suficientemente bien como para escribir gráficos de escena es bastante sorprendente.
100,47K