SceneScript behandelt die 3D-Rekonstruktion als ein Sprachproblem und nicht als ein geometrisches. Das Modell sieht sich ein Video eines Raumes an und lernt einfach, ein Skript dafür zu schreiben. Es gibt autoregressiv Textbefehle wie make_wall(...) oder make_bbox(...) aus, die die Szene definieren. Das neue "Scene Language"-Papier von Stanford geht einen Schritt weiter und fügt CLIP-Embeddings hinzu, um auch das visuelle Erscheinungsbild zu erfassen. Die Tatsache, dass Sprachmodelle bereits räumliche Beziehungen gut genug verstehen, um Szenengraphen zu erstellen, ist ziemlich verrückt.
100,48K