我最近在X上有点安静。过去一年是一个变革的经历。Grok-4和Kimi K2都很棒,但机器人技术的世界就像一个奇妙的西部荒野。感觉就像2018年的自然语言处理,当时GPT-1发布,BERT和其他一千朵花也相继绽放。没有人知道哪个最终会成为ChatGPT。辩论非常激烈。熵值高得惊人。想法非常有趣。 我相信机器人的GPT-1已经在Arxiv的某个地方,但我们不知道确切是哪个。可能是世界模型、强化学习、从人类视频学习、sim2real、real2sim等等,或者它们的任何组合。辩论依然激烈。熵值高得惊人。想法非常有趣,而不是在AIME和GPQA上挤出最后的几个百分点。 机器人的本质也大大复杂化了设计空间。与LLM(文本字符串)干净的比特世界不同,我们的机器人专家必须处理混乱的原子世界。毕竟,循环中有一块软件定义的金属。LLM的普通人可能很难相信,但到目前为止,机器人专家仍然无法就基准达成一致!不同的机器人有不同的能力范围——有些在杂技方面表现更好,而其他则在物体操作方面更强。有些是为工业用途而设计的,而其他则是为家庭任务而设计的。跨体现不仅仅是一个研究新奇,而是一个通用机器人大脑的基本特征。 我与来自各种机器人公司的数十位C-suite领导进行了交谈,无论是老公司还是新公司。有些出售整个身体。有些出售如灵巧手这样的身体部件。还有许多其他公司出售制造新身体、创建模拟或收集大量数据的铲子。商业创意空间与研究本身一样狂野。这是一场新的淘金热,自2022年ChatGPT浪潮以来,我们还没有见过这样的情况。 进入的最佳时机是当非共识达到顶峰时。我们仍然处于损失曲线的开始阶段——有强烈的生命迹象,但距离收敛还远得很。每一步梯度都将我们带入未知。但我确实知道一件事——没有触摸、感受和在混乱的世界中具身,就没有AGI。 在更个人的层面上——经营一个研究实验室带来了全新的责任感。直接向一家价值4万亿美元公司的CEO汇报进展,温和地说,这既令人兴奋又消耗了我所有的注意力。过去我可以跟上并深入了解每一条AI新闻的日子已经一去不复返了。 我会尽量抽出时间分享我的更多旅程。
876.96K