熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們進行了一項隨機對照試驗,以了解 AI 編碼工具對經驗豐富的開源開發者的加速效果。
結果讓我們感到驚訝:開發者認為使用 AI 工具的速度提高了 20%,但實際上他們在使用 AI 工具時的速度比沒有使用時慢了 19%。

我們招募了16位經驗豐富的開源開發者,來處理246個真實任務,這些任務分佈在他們自己的代碼庫中(平均22k+顆星,超過100萬行代碼)。
我們隨機將每個任務分配為允許AI(通常是Cursor Pro搭配Claude 3.5/3.7)或不允許AI協助。

在研究開始時,開發人員預測他們的工作速度將提高24%。但在實際工作後,他們估計自己的工作速度提高了20%。然而,實際上他們的工作速度卻減慢了19%。

當AI被允許使用時,開發人員花在主動編碼和搜尋資訊上的時間減少,反而花時間在提示AI、等待/審查AI的輸出以及閒置。我們找不到單一原因導致這種放緩——這是由多種因素共同驅動的。

我們為什麼要進行這項研究?
AI 代理基準有其局限性——它們是自我封閉的,使用算法評分,並且缺乏實時的人類互動。這使得直接推斷其對現實世界的影響變得困難。
如果我們想要一個早期預警系統,以判斷 AI 研發是否被 AI 本身加速,甚至自動化,那麼能夠在現實世界的工程試驗中直接測量這一點將是非常有用的,而不是依賴基準或甚至更嘈雜的信息,如轶事。
我們可以得出什麼結論?
1. 對於某些重要的設置來說,最近的 AI 工具似乎並沒有提高生產力(實際上可能會降低生產力)。
2. 自我報告的加速效果並不可靠—要了解 AI 對生產力的影響,我們需要在實際環境中進行實驗。
401.33K
熱門
排行
收藏