具身人工智能数据是不可预测的、多模态的,并且与其环境紧密相关。驱动大型语言模型(LLMs)的管道无法跟上。 现实世界的边缘案例无法被抓取。它们必须被协调和验证。 Zhu等人的最新研究以及关于大型多模态推理模型的调查显示了原因: → 大型多模态推理模型在嘈杂、动态输入下表现不佳。 → 工具使用脆弱 → 在物理环境中进行长期规划仍然遥不可及。
1.84K