SceneScript beschouwt 3D-reconstructie als een taalprobleem in plaats van een geometrisch probleem. Het model kijkt naar een video van een kamer en leert gewoon een script ervoor te schrijven. Het genereert autoregressief tekstcommando's zoals make_wall(...) of make_bbox(...) die de scène definiëren. Het nieuwe "Scene Language"-artikel van Stanford gaat een stap verder door CLIP-embeddings toe te voegen om ook de visuele uitstraling vast te leggen. Het feit dat taalmodellen al goed genoeg zijn om ruimtelijke relaties te begrijpen om scènegrafieken op te stellen, is behoorlijk bijzonder.
100,48K