🚨UUTINEN: Alibaba testasi tekoälykoodausagentteja 100 oikealla koodipohjalla, joista kukin kesti 233 päivää. Agentit epäonnistuivat räikeästi. Kävi ilmi, että kokeiden läpäiseminen kerran on helppoa. Koodin ylläpito kahdeksan kuukautta rikkomatta kaikkea on se, missä tekoäly romahtaa. SWE-CI on ensimmäinen vertailutesti, joka mittaa pitkäaikaista koodin ylläpitoa kertavirhekorjauksen sijaan. jokainen tehtävä seuraa 71 peräkkäistä todellista kehitystä commitia. 75 % tekoälymalleista rikkoo aiemmin toiminutta koodia huollon aikana. vain Claude Opus 4 pysyy yli 50 %:n nollaregressioasteen. Jokainen muu malli kerää teknistä velkaa, joka kasaantuu iteraatioiden aikana. Tässä tulee brutaali osa: - HumanEval ja SWE-bench -mitta "toimiiko se juuri nyt" - SWE-CI-mittarit "toimiiko se edelleen kuuden kuukauden muutosten jälkeen" Agentit, jotka on optimoitu snapshot-testaukseen, kirjoittavat haurasta koodia, joka läpäisee testit tänään mutta muuttuu huomenna ylläpidottomaksi. Alibaba rakensi EvoScoren painottamaan myöhempiä versioita raskaampia kuin varhaiset. Agentit, jotka uhraavat koodin laadun nopeiden voittojen vuoksi, saavat rangaistuksen, kun seuraukset kasaantuvat. tekoälykoodauksen kertomus muuttui nyt rehellisemmäksi: useimmat mallit osaavat kirjoittaa koodia. lähes kukaan ei pysty ylläpitämään sitä.