🚨ÚLTIMA HORA: A Alibaba testou agentes de codificação de IA em 100 bases de código reais, com duração de 233 dias cada. Os agentes falharam espetacularmente. Acontece que passar uma vez nos testes é fácil. manter código por 8 meses sem quebrar tudo é onde a IA colapsa. O SWE-CI é o primeiro benchmark que mede a manutenção de código de longo prazo em vez de correções de bugs únicas. Cada tarefa acompanha 71 commits consecutivos de real evolution. 75% dos modelos de IA quebram códigos que já funcionavam durante a manutenção. apenas Claude Opus 4 permanece acima de 50% de taxa de regressão zero. todo outro modelo acumula dívida técnica que se acumula ao longo das iterações. Aqui está a parte brutal: - HumanEval e medida de banco SWE "funciona agora" - SWE-CI mede "ainda funciona após 6 meses de mudanças" Agentes otimizados para testes de snapshot escrevem código frágil que passa nos testes hoje, mas se torna insustentável amanhã. A Alibaba construiu o EvoScore para pesar versões posteriores mais pesadas do que as iniciais. Agentes que sacrificam qualidade de código por vitórias rápidas são punidos quando as consequências se acumulam. a narrativa de codificação por IA ficou mais honesta: a maioria dos modelos sabe escrever código. quase ninguém consegue mantê-lo.