DApp Store | Centrum Web3 pro události a hry

Populární témata

🚨NOVINKA: Alibaba testovala AI kódující agenty na 100 skutečných kódových základnách, každá pokrývající 233 dní. Agenti naprosto selhali. Ukázalo se, že jednou je snadné projít testy. Udržování kódu 8 měsíců bez rozbití všeho je místo, kde AI selhává. SWE-CI je první benchmark, který měří dlouhodobou údržbu kódu místo jednorázových oprav chyb. Každý úkol sleduje 71 po sobě jdoucích commitů skutečné evoluce. 75 % AI modelů během údržby naruší dříve funkční kód. pouze Claude Opus 4 zůstává nad 50% nulovou regresi. každý jiný model hromadí technický dluh, který se v průběhu iterací sčítá. Tady je ta krutá část: - HumanEval a SWE-bench měření "funguje to právě teď" - SWE-CI měří "funguje to stále po 6 měsících změn" Agenti optimalizovaní pro testování snímků píší křehký kód, který dnes testy projde, ale zítra se stane neudržitelným. Alibaba postavila EvoScore tak, aby pozdější verze vážily více než ty první. Agenti, kteří obětují kvalitu kódu kvůli rychlým výhrám, jsou potrestáni, když se následky sčítají. Narativ o AI kódování je teď upřímnější: většina modelů umí psát kód. téměř nikdo ji nedokáže udržet.

Top

Hodnocení

Oblíbené