Kami menjalankan uji coba terkontrol secara acak untuk melihat seberapa banyak alat pengkodean AI mempercepat pengembang sumber terbuka yang berpengalaman. Hasilnya mengejutkan kami: Pengembang mengira mereka 20% lebih cepat dengan alat AI, tetapi sebenarnya mereka 19% lebih lambat ketika mereka memiliki akses ke AI daripada ketika mereka tidak.
Kami merekrut 16 pengembang sumber terbuka berpengalaman untuk mengerjakan 246 tugas nyata di repositori mereka sendiri (rata-rata 22k+ bintang, 1M+ baris kode). Kami secara acak menetapkan setiap tugas untuk mengizinkan AI (biasanya Cursor Pro dengan Claude 3.5/3.7) atau tidak mengizinkan bantuan AI.
Pada awal penelitian, pengembang memperkirakan bahwa mereka akan dipercepat sebesar 24%. Setelah benar-benar melakukan pekerjaan, mereka memperkirakan bahwa mereka telah dipercepat sebesar 20%. Namun ternyata mereka sebenarnya melambat sebesar 19%.
Ketika AI diizinkan, pengembang menghabiskan lebih sedikit waktu secara aktif untuk mengkodekan dan mencari informasi, dan sebagai gantinya menghabiskan waktu untuk meminta AI, menunggu/meninjau output AI, dan menganggur. Kami tidak menemukan alasan tunggal untuk perlambatan — itu didorong oleh kombinasi faktor.
Mengapa kami menjalankan penelitian ini? Tolok ukur agen AI memiliki keterbatasan—mereka mandiri, menggunakan penilaian algoritmik, dan tidak memiliki interaksi langsung dengan manusia. Hal ini dapat menyulitkan untuk menyimpulkan dampak dunia nyata secara langsung. Jika kita menginginkan sistem peringatan dini apakah R&D AI dipercepat oleh AI itu sendiri, atau bahkan otomatis, akan berguna untuk dapat mengukur ini secara langsung dalam uji coba insinyur dunia nyata, daripada mengandalkan proxy seperti tolok ukur atau bahkan informasi yang lebih berisik seperti anekdot.
Apa yang kita ambil? 1. Tampaknya untuk beberapa pengaturan penting, perkakas AI baru-baru ini tidak meningkatkan produktivitas (dan sebenarnya dapat menurunkannya). 2. Laporan mandiri tentang percepatan tidak dapat diandalkan—untuk memahami dampak AI terhadap produktivitas, kita membutuhkan eksperimen di alam liar.
401,33K