Wir haben eine randomisierte kontrollierte Studie durchgeführt, um zu sehen, wie sehr KI-Coding-Tools erfahrene Open-Source-Entwickler beschleunigen. Die Ergebnisse haben uns überrascht: Die Entwickler dachten, sie seien mit KI-Tools 20 % schneller, tatsächlich waren sie jedoch 19 % langsamer, wenn sie Zugang zu KI hatten, als wenn sie keinen hatten.
Wir haben 16 erfahrene Open-Source-Entwickler rekrutiert, um an 246 realen Aufgaben in ihren eigenen Repositories zu arbeiten (durchschnittlich 22k+ Sterne, 1M+ Codezeilen). Wir haben jede Aufgabe zufällig entweder so zugewiesen, dass KI (typischerweise Cursor Pro mit Claude 3.5/3.7) erlaubt ist, oder dass KI-Hilfe nicht erlaubt ist.
Zu Beginn der Studie prognostizierten die Entwickler, dass sie um 24 % schneller werden würden. Nach der tatsächlichen Durchführung der Arbeit schätzten sie, dass sie um 20 % schneller geworden seien. Es stellte sich jedoch heraus, dass sie tatsächlich um 19 % langsamer geworden waren.
Wenn KI erlaubt ist, verbringen Entwickler weniger Zeit mit aktivem Codieren und der Suche nach Informationen und stattdessen damit, KI zu steuern, auf KI-Ausgaben zu warten/ diese zu überprüfen und untätig zu sein. Wir finden keinen einzelnen Grund für die Verlangsamung – sie wird durch eine Kombination von Faktoren verursacht.
Warum haben wir diese Studie durchgeführt? Die Benchmarks von KI-Agenten haben Einschränkungen – sie sind selbstständig, verwenden algorithmische Bewertungen und fehlen an direkter menschlicher Interaktion. Das kann es schwierig machen, direkte Rückschlüsse auf die Auswirkungen in der realen Welt zu ziehen. Wenn wir ein Frühwarnsystem wollen, um festzustellen, ob die KI-Forschung und -Entwicklung durch KI selbst beschleunigt oder sogar automatisiert wird, wäre es nützlich, dies direkt in realen Ingenieurtests messen zu können, anstatt auf Stellvertreter wie Benchmarks oder sogar ungenauere Informationen wie Anekdoten angewiesen zu sein.
Was nehmen wir mit? 1. Es scheint wahrscheinlich, dass in einigen wichtigen Bereichen die aktuellen KI-Tools die Produktivität nicht erhöht haben (und sie möglicherweise sogar verringern). 2. Selbstberichte über Geschwindigkeitssteigerungen sind unzuverlässig – um die Auswirkungen von KI auf die Produktivität zu verstehen, benötigen wir Experimente in der Praxis.
401,33K