🚨КРИТИЧНО: Alibaba протестувала агенти кодування ШІ на 100 реальних кодових базах, кожна з яких тривалістю 233 дні. агенти зазнали катастрофічної поразки. Виявляється, скласти один тест — це легко. Підтримувати код 8 місяців без зламування всього — ось де ШІ руйнується. SWE-CI — це перший бенчмарк, який вимірює довгострокове обслуговування коду, а не одноразове виправлення помилок. Кожне завдання відстежує 71 послідовний комітет реальної еволюції. 75% моделей штучного інтелекту ламають раніше працюючий код під час обслуговування. лише Claude Opus 4 зберігає рівень нульової регресії вище 50%. Кожна інша модель накопичує технічний борг, який накопичується з ітераціями. Ось найжорстокіша частина: - HumanEval та SWE-bench міра «чи працює це зараз» - SWE-CI вимірює «чи працює він після 6 місяців змін» Агенти, оптимізовані для тестування знімків, пишуть крихкий код, який сьогодні проходить тести, але завтра стає непідтримуваним. Alibaba створила EvoScore так, щоб пізніше важили більші за ранні. Агенти, які жертвують якістю коду заради швидких перемог, карають наслідки, коли наслідки накопичуються. наратив кодування ШІ став більш чесним: більшість моделей можуть писати код. майже ніхто не може його підтримувати.