يتعامل SceneScript مع إعادة البناء ثلاثية الأبعاد كمشكلة لغوية وليست مشكلة هندسية. يشاهد النموذج مقطع فيديو لغرفة ويتعلم فقط كتابة نص لها. إنه يبصق تلقائيا أوامر نصية مثل make_wall(...) أو make_bbox(...) التي تحدد المشهد. تذهب ورقة "لغة المشهد" الجديدة في ستانفورد خطوة إلى الأمام ، مضيفة تضمينات CLIP لالتقاط المظهر المرئي أيضا. حقيقة أن نماذج اللغة تفهم بالفعل العلاقات المكانية جيدا بما يكفي لكتابة الرسوم البيانية للمشهد أمر جامح جدا.
‏‎100.51‏K