SceneScript traktuje rekonstrukcję 3D jako problem językowy, a nie geometryczny. Model ogląda wideo z pokoju i po prostu uczy się pisać skrypt dla niego. Autoregresywnie generuje polecenia tekstowe, takie jak make_wall(...) lub make_bbox(...), które definiują scenę. Nowy artykuł Stanfordu "Scene Language" idzie o krok dalej, dodając osadzenia CLIP, aby uchwycić również wizualny wygląd. Fakt, że modele językowe już wystarczająco dobrze rozumieją relacje przestrzenne, aby zapisać grafy scen, jest dość szalony.
100,51K