Ми провели рандомізоване контрольоване дослідження, щоб з'ясувати, наскільки інструменти кодування зі штучним інтелектом прискорюють роботу досвідчених розробників з відкритим вихідним кодом. Результати нас здивували: розробники думали, що вони на 20% швидші з інструментами штучного інтелекту, але насправді вони були на 19% повільнішими, коли мали доступ до ШІ, ніж коли їх не було.
Ми залучили 16 досвідчених розробників з відкритим вихідним кодом для роботи над 246 реальними завданнями у власних репозиторіях (середній показник 22k+ зірок, 1M+ рядків коду). Ми випадковим чином розподілили кожне завдання, щоб або дозволити ШІ (зазвичай Cursor Pro з Claude 3.5/3.7), або заборонити допомогу ШІ.
На початку дослідження розробники прогнозували, що їх прискорять на 24%. Фактично виконавши роботу, вони підрахували, що їх прискорили на 20%. Але виявилося, що насправді вони були уповільнені на 19%.
Коли ШІ дозволено, розробники витрачають менше часу на активне кодування та пошук інформації, а натомість витрачають час на підказки ШІ, очікування/перегляд результатів ШІ та простоюють. Ми не знаходимо єдиної причини уповільнення — це зумовлено сукупністю факторів.
Чому ми провели це дослідження? Тести агентів штучного інтелекту мають обмеження — вони самодостатні, використовують алгоритмічну оцінку та не мають живої взаємодії з людьми. Це може ускладнити прямі висновки про реальний вплив. Якщо нам потрібна система раннього попередження про те, чи прискорюються дослідження та розробки в галузі штучного інтелекту самим штучним інтелектом або навіть автоматизуються, було б корисно мати можливість безпосередньо вимірювати це в реальних випробуваннях інженерів, а не покладатися на проксі-сервери, такі як бенчмарки, або навіть більш шумну інформацію, як-от анекдоти.
Що ми забираємо? 1. Здається ймовірним, що для деяких важливих налаштувань нещодавні інструменти штучного інтелекту не підвищили продуктивність (і навіть можуть навіть знизити її). 2. Самозвіти про прискорення ненадійні — щоб зрозуміти вплив штучного інтелекту на продуктивність, нам потрібні експерименти в дикій природі.
401,33K