@k7agar 对 V-JEPA 2 世界模型的分析 深入探讨了使其能够以 65% 的成功率进行杯子抓取的架构 提到“语言目标问题”,即机器人能够理解它需要实现的目标,而无需展示图片/多张图片 探索去中心化方法将会很有趣 1. 世界模型生成“目标”的迭代 2. 去中心化验证网络对哪个被视为准确的“目标”进行投票,例如识别 BLT 三明治 链接如下
529