DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

🚨BREAKING: Alibaba testade AI-kodningsagenter på 100 riktiga kodbaser, vardera på 233 dagar. Agenterna misslyckades spektakulärt. Det visar sig att det är lätt att klara proven en gång. Att underhålla koden i åtta månader utan att förstöra allt är där AI:n kollapsar. SWE-CI är det första benchmarket som mäter långsiktigt kodunderhåll istället för engångs-buggfixar. Varje uppgift följer 71 på varandra följande commits av verklig evolution. 75 % av AI-modellerna bryter tidigare fungerande kod under underhåll. endast Claude Opus 4 håller sig över 50 % nollregressionsfrekvens. Alla andra modeller ackumulerar teknisk skuld som krympas över iterationer. Här kommer den brutala delen: - HumanEval och SWE-bench-mätning "fungerar det just nu" - SWE-CI-mått "fungerar det fortfarande efter 6 månaders förändringar" agenter optimerade för snapshot-testning skriver sprött kod som klarar tester idag men blir ounderhållbar imorgon. Alibaba byggde EvoScore för att väga senare iterationer tyngre än de tidiga. agenter som offrar kodkvalitet för snabba vinster straffas när konsekvenserna blir högvarvade. AI-kodningsberättelsen blev just ärligare: de flesta modeller kan skriva kod. Nästan ingen kan upprätthålla den.

Topp

Rankning

Favoriter