Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨BREAKING: Alibaba testet AI-kodingsagenter på 100 ekte kodebaser, over 233 dager hver.
Agentene feilet spektakulært.
Det viser seg at det er lett å bestå tester én gang. Å opprettholde kode i 8 måneder uten å ødelegge alt er der AI-en kollapser.
SWE-CI er den første benchmarken som måler langsiktig kodevedlikehold i stedet for engangsfeilrettinger.
Hver oppgave følger 71 påfølgende commits av reell utvikling.
75 % av AI-modellene bryter tidligere fungerende kode under vedlikehold.
bare Claude Opus 4 holder seg over 50 % null-regresjonsrate. Alle andre modeller akkumulerer teknisk gjeld som akkumuleres over iterasjoner.
Her kommer den brutale delen:
- HumanEval og SWE-bench-måling «fungerer det akkurat nå»
- SWE-CI måler «fungerer det fortsatt etter 6 måneder med endringer»
Agenter optimalisert for snapshot-testing skriver sprø kode som består tester i dag, men blir uvedlikeholdbar i morgen.
Alibaba bygde EvoScore for å veie senere iterasjoner tyngre enn de tidlige. Agenter som ofrer kodekvalitet for raske seire blir straffet når konsekvensene bygger seg opp.
AI-kodingsnarrativet ble nettopp mer ærlig: de fleste modeller kan skrive kode. Nesten ingen klarer å opprettholde den.

Topp
Rangering
Favoritter
