Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨ULTIMĂ PERIOADĂ: Alibaba a testat agenți de codare AI pe 100 de baze de cod reale, pe o perioadă de 233 de zile fiecare.
agenții au eșuat spectaculos.
Se pare că trecerea testelor o dată e ușoară. menținerea codului timp de 8 luni fără să strice totul este locul unde AI-ul se prăbușește.
SWE-CI este primul benchmark care măsoară întreținerea pe termen lung a codului în loc de corecții de bug-uri dintr-o singură lovitură.
Fiecare sarcină urmărește 71 de angajamente consecutive de evoluție reală.
75% dintre modelele AI strică codul anterior funcțional în timpul mentenanței.
doar Claude Opus 4 rămâne peste 50% rata de regresie zero. Fiecare alt model acumulează datorii tehnice care se acumulează pe parcursul iterațiilor.
Iată partea brutală:
- Măsura HumanEval și SWE-bench "funcționează chiar acum"
- SWE-CI măsoară "funcționează în continuare după 6 luni de modificări"
Agenții optimizați pentru testarea snapshot scriu cod fragil care trece testele astăzi, dar devine neîntreținut mâine.
Alibaba a construit EvoScore pentru a cântări iterațiile ulterioare mai grele decât cele timpurii. agenții care sacrifică calitatea codului pentru victorii rapide sunt pedepsiți când consecințele se acumulează.
narațiunea codării AI a devenit pur și simplu mai sinceră: majoritatea modelelor pot scrie cod. aproape nimeni nu o poate menține.

Limită superioară
Clasament
Favorite
