热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们进行了一项随机对照试验,以了解AI编码工具在多大程度上加快了经验丰富的开源开发者的工作速度。
结果让我们感到惊讶:开发者认为使用AI工具时速度提高了20%,但实际上他们在使用AI时的速度比没有使用时慢了19%。

我们招募了16名经验丰富的开源开发者,在他们自己的代码库中处理246个真实任务(平均22k+颗星,超过100万行代码)。
我们随机分配每个任务,允许使用AI(通常是Cursor Pro与Claude 3.5/3.7)或不允许AI帮助。

在研究开始时,开发人员预测他们的工作速度将提高24%。在实际工作后,他们估计自己的工作速度提高了20%。但结果却是他们的工作速度实际上下降了19%。

当允许使用人工智能时,开发者花费更少的时间主动编码和搜索信息,而是花时间提示人工智能,等待/审查人工智能的输出,以及闲置。我们没有发现导致放缓的单一原因——这是由多种因素共同驱动的。

我们为什么要进行这项研究?
AI代理基准测试存在局限性——它们是自包含的,使用算法评分,并且缺乏实时的人类互动。这使得直接推断其对现实世界的影响变得困难。
如果我们想要一个早期预警系统,以判断AI研发是否被AI本身加速,甚至是自动化,那么能够在现实工程试验中直接测量这一点将是非常有用的,而不是依赖基准测试或甚至更嘈杂的信息,如轶事。
我们能得出什么结论?
1. 对于一些重要的设置,最近的人工智能工具似乎并没有提高生产力(实际上可能会降低生产力)。
2. 自我报告的加速效果并不可靠——要理解人工智能对生产力的影响,我们需要在实际环境中进行实验。
401.33K
热门
排行
收藏