测试今天最佳模型揭示了基本的认知差距:它们错过了指令,选择放弃而不是克服障碍,甚至在细心指导下也无法从错误中恢复。我认为这些能力不会仅仅通过“解除束缚”而显现。
Mechanize
Mechanize2025年7月25日
现有模型的问题不在于它们有待解锁的隐藏能力,而在于它们根本缺乏进行有价值工作的认知能力。"解除束缚"只能带我们走到某个程度。
10.25K