🚨BREAKING: Alibaba testet AI-kodingsagenter på 100 ekte kodebaser, over 233 dager hver. Agentene feilet spektakulært. Det viser seg at det er lett å bestå tester én gang. Å opprettholde kode i 8 måneder uten å ødelegge alt er der AI-en kollapser. SWE-CI er den første benchmarken som måler langsiktig kodevedlikehold i stedet for engangsfeilrettinger. Hver oppgave følger 71 påfølgende commits av reell utvikling. 75 % av AI-modellene bryter tidligere fungerende kode under vedlikehold. bare Claude Opus 4 holder seg over 50 % null-regresjonsrate. Alle andre modeller akkumulerer teknisk gjeld som akkumuleres over iterasjoner. Her kommer den brutale delen: - HumanEval og SWE-bench-måling «fungerer det akkurat nå» - SWE-CI måler «fungerer det fortsatt etter 6 måneder med endringer» Agenter optimalisert for snapshot-testing skriver sprø kode som består tester i dag, men blir uvedlikeholdbar i morgen. Alibaba bygde EvoScore for å veie senere iterasjoner tyngre enn de tidlige. Agenter som ofrer kodekvalitet for raske seire blir straffet når konsekvensene bygger seg opp. AI-kodingsnarrativet ble nettopp mer ærlig: de fleste modeller kan skrive kode. Nesten ingen klarer å opprettholde den.