这张图表悄悄地向你展示了AI编码公司的新玩法,而没有人谈论它。 Cognition和Cursor最初都是在Claude和GPT上运行的包装器。现在看看这个基准。Cognition的SWE-1.6得分51.7%。Cursor的Composer-1.5得分50.8%。两者都在Claude Opus 4.6的53.6%和GPT-5.3-Codex的56.8%之间,处于可触及的距离。 这两家公司都没有从零开始训练基础模型。两者都采用了开源基础模型,并在真实编码环境中应用了强化学习。Cognition的Swyx在Hacker News上直接说:“基础模型的质量变得越来越不重要,只要它足够好,因为之后的RL和后训练就会接管,并成为整个差异化的关键。” 这就是论点。基础模型是一种商品。针对你的特定代理、工具使用模式和真实用户会话训练的RL管道是可防御的层。Cognition在他们的Cascade工具上训练了SWE-1.6,使用的RL计算量比SWE-1.5多两个数量级。Cursor在实时IDE环境中训练Composer,涉及文件编辑、语义搜索和终端命令。两者共同设计了模型和产品。 跳跃的数学讲述了这个故事。SWE-1.5得分40.1%。SWE-1.6得分51.7%。相同的基础模型。相同的950 tok/s推理在Cerebras上。整个11.6分的提升来自于更好的RL配方和更多的计算。这比大多数基础实验室从预训练扩展中获得的改进速度更快。 这是两家市值超过100亿美元的公司(Cognition市值102亿美元,Cursor市值293亿美元)独立得出的相同结论:你不需要构建GPT-5来与GPT-5在编码上竞争。你需要在一个足够好的基础上进行大规模的RL,并与您的代理基础设施共同设计。 速度层也很重要。Cognition通过Cerebras以950 tok/s运行。Composer以250 tok/s运行。在代理工作流中,模型在每个任务中循环数十次,这4倍的速度差异会累积成显著不同的用户体验。Cognition正在押注速度加准确性胜过单纯的准确性。 应该让OpenAI和Anthropic担忧的问题是:如果两家初创公司能够在使用开源基础的RL上与您最好的模型相差5分,那么当开源基础变得更好时会发生什么?对Llama或Qwen的每一次改进都会直接流入Cognition和Cursor的管道。基础实验室实际上是在补贴自己的竞争对手。