我们进行了一项随机对照试验,以了解AI编码工具在多大程度上加快了经验丰富的开源开发者的工作速度。 结果让我们感到惊讶:开发者认为使用AI工具时速度提高了20%,但实际上他们在使用AI时的速度比没有使用时慢了19%。
我们招募了16名经验丰富的开源开发者,在他们自己的代码库中处理246个真实任务(平均22k+颗星,超过100万行代码)。 我们随机分配每个任务,允许使用AI(通常是Cursor Pro与Claude 3.5/3.7)或不允许AI帮助。
在研究开始时,开发人员预测他们的工作速度将提高24%。在实际工作后,他们估计自己的工作速度提高了20%。但结果却是他们的工作速度实际上下降了19%。
当允许使用人工智能时,开发者花费更少的时间主动编码和搜索信息,而是花时间提示人工智能,等待/审查人工智能的输出,以及闲置。我们没有发现导致放缓的单一原因——这是由多种因素共同驱动的。
我们为什么要进行这项研究? AI代理基准测试存在局限性——它们是自包含的,使用算法评分,并且缺乏实时的人类互动。这使得直接推断其对现实世界的影响变得困难。 如果我们想要一个早期预警系统,以判断AI研发是否被AI本身加速,甚至是自动化,那么能够在现实工程试验中直接测量这一点将是非常有用的,而不是依赖基准测试或甚至更嘈杂的信息,如轶事。
我们能得出什么结论? 1. 对于一些重要的设置,最近的人工智能工具似乎并没有提高生产力(实际上可能会降低生产力)。 2. 自我报告的加速效果并不可靠——要理解人工智能对生产力的影响,我们需要在实际环境中进行实验。
401.33K