SceneScript trata la reconstrucción 3D como un problema de lenguaje en lugar de uno de geometría. La modelo ve un video de una habitación y simplemente aprende a escribir un guión para ella. Escupe automáticamente comandos de texto como make_wall(...) o make_bbox(...) que definen la escena. El nuevo documento "Scene Language" de Stanford va un paso más allá, añadiendo incrustaciones de CLIP para capturar también la apariencia visual. El hecho de que los modelos de lenguaje ya entiendan las relaciones espaciales lo suficientemente bien como para escribir gráficos de escena es bastante descabellado.
100.51K