Provedli jsme randomizovanou kontrolovanou studii, abychom zjistili, jak moc kódovací nástroje AI urychlují zkušené vývojáře open-source. Výsledky nás překvapily: Vývojáři si mysleli, že jsou s nástroji AI o 20 % rychlejší, ale ve skutečnosti byli o 19 % pomalejší, když k AI měli, než když ji neměli.
Přijali jsme 16 zkušených open-source vývojářů, kteří budou pracovat na 246 reálných úkolech ve vlastních repozitářích (prům. 22k+ hvězdiček, 1M+ řádků kódu). Náhodně jsme přiřadili každý úkol, aby buď povolil AI (typicky Cursor Pro w/ Claude 3.5/3.7), nebo zakázal AI nápovědu.
Na začátku studie vývojáři předpovídali, že se jejich zrychlení zrychlí o 24 %. Po skutečném provedení práce odhadli, že se jejich zrychlení zrychlilo o 20 %. Ukázalo se ale, že byli ve skutečnosti zpomaleni o 19 %.
Když je umělá inteligence povolena, vývojáři tráví méně času aktivním kódováním a vyhledáváním informací a místo toho tráví čas výzvou k umělé inteligenci, čekáním na výstupy umělé inteligence/jejich kontrolou a nečinností. Nenašli jsme žádný jediný důvod pro zpomalení – je to způsobeno kombinací několika faktorů.
Proč jsme tuto studii provedli? Benchmarky agentů AI mají svá omezení – jsou samostatné, používají algoritmické bodování a postrádají živou lidskou interakci. To může ztížit přímé odvození dopadu na reálný svět. Pokud chceme systém včasného varování o tom, zda je výzkum a vývoj umělé inteligence urychlován samotnou umělou inteligencí, nebo dokonce automatizován, bylo by užitečné mít možnost to přímo měřit v reálných inženýrských zkouškách, místo abychom se spoléhali na zástupné ukazatele, jako jsou benchmarky, nebo dokonce na hlučnější informace, jako jsou anekdoty.
Co si odnášíme? 1. Zdá se pravděpodobné, že u některých důležitých nastavení nedávné nástroje umělé inteligence nezvýšily produktivitu (a ve skutečnosti ji mohou snížit). 2. Vlastní zprávy o zrychlení jsou nespolehlivé – abychom pochopili dopad umělé inteligence na produktivitu, potřebujeme experimenty v přírodě.
401,34K