🚨ULTIMĂ PERIOADĂ: Alibaba a testat agenți de codare AI pe 100 de baze de cod reale, pe o perioadă de 233 de zile fiecare. agenții au eșuat spectaculos. Se pare că trecerea testelor o dată e ușoară. menținerea codului timp de 8 luni fără să strice totul este locul unde AI-ul se prăbușește. SWE-CI este primul benchmark care măsoară întreținerea pe termen lung a codului în loc de corecții de bug-uri dintr-o singură lovitură. Fiecare sarcină urmărește 71 de angajamente consecutive de evoluție reală. 75% dintre modelele AI strică codul anterior funcțional în timpul mentenanței. doar Claude Opus 4 rămâne peste 50% rata de regresie zero. Fiecare alt model acumulează datorii tehnice care se acumulează pe parcursul iterațiilor. Iată partea brutală: - Măsura HumanEval și SWE-bench "funcționează chiar acum" - SWE-CI măsoară "funcționează în continuare după 6 luni de modificări" Agenții optimizați pentru testarea snapshot scriu cod fragil care trece testele astăzi, dar devine neîntreținut mâine. Alibaba a construit EvoScore pentru a cântări iterațiile ulterioare mai grele decât cele timpurii. agenții care sacrifică calitatea codului pentru victorii rapide sunt pedepsiți când consecințele se acumulează. narațiunea codării AI a devenit pur și simplu mai sinceră: majoritatea modelelor pot scrie cod. aproape nimeni nu o poate menține.