SceneScript tratta la ricostruzione 3D come un problema di linguaggio piuttosto che di geometria. Il modello osserva un video di una stanza e impara semplicemente a scrivere un copione per essa. Genera autoregressivamente comandi testuali come make_wall(...) o make_bbox(...) che definiscono la scena. Il nuovo documento "Scene Language" di Stanford fa un passo ulteriore aggiungendo le embedding CLIP per catturare anche l'aspetto visivo. Il fatto che i modelli di linguaggio comprendano già le relazioni spaziali abbastanza bene da scrivere grafi di scena è piuttosto sorprendente.
100,47K