SceneScript behandler 3D-rekonstruksjon som et språkproblem i stedet for et geometrisk problem. Modellen ser på en video av et rom og lærer bare å skrive et manus til det. Den spytter autoregressivt ut tekstkommandoer som make_wall(...) eller make_bbox(...) som definerer scenen. Stanfords nye «Scene Language»-artikkel går et skritt videre og legger til CLIP-innbygginger for å fange visuelt utseende også. Det faktum at språkmodeller allerede forstår romlige forhold godt nok til å skrive ut scenegrafer er ganske vilt.
100,46K