SceneScript memperlakukan rekonstruksi 3D sebagai masalah bahasa daripada masalah geometri. Model menonton video ruangan dan hanya belajar menulis naskah untuk itu. Ini secara autoregresif memuntahkan perintah teks seperti make_wall(...) atau make_bbox(...) yang mendefinisikan adegan. Makalah "Scene Language" baru Stanford melangkah lebih jauh dengan menambahkan penyematan CLIP untuk menangkap tampilan visual juga. Fakta bahwa model bahasa sudah memahami hubungan spasial dengan cukup baik untuk menulis grafik adegan cukup liar.
100,47K