O SceneScript trata a reconstrução 3D como um problema de linguagem em vez de um problema de geometria. O modelo assiste a um vídeo de uma sala e aprende a escrever um script para isso. Ele gera automaticamente comandos de texto como make_wall(...) ou make_bbox(...) que definem a cena. O novo artigo "Scene Language" de Stanford vai um passo além, adicionando embeddings CLIP para capturar também a aparência visual. O fato de que os modelos de linguagem já entendem relações espaciais suficientemente bem para escrever gráficos de cena é bastante impressionante.
100,48K