🚨NOTÍCIA DE ÚLTIMA HORA: A Alibaba testou agentes de codificação de IA em 100 bases de código reais, ao longo de 233 dias cada. os agentes falharam espetacularmente. acontece que passar testes uma vez é fácil. manter o código por 8 meses sem quebrar tudo é onde a IA colapsa. O SWE-CI é o primeiro benchmark que mede a manutenção de código a longo prazo em vez de correções de bugs pontuais. cada tarefa rastreia 71 commits consecutivos de evolução real. 75% dos modelos de IA quebram código que anteriormente funcionava durante a manutenção. somente o Claude Opus 4 mantém uma taxa de zero-regressão acima de 50%. todos os outros modelos acumulam dívida técnica que se compõe ao longo das iterações. a parte brutal é a seguinte: - HumanEval e SWE-bench medem "funciona agora?" - SWE-CI mede "ainda funciona após 6 meses de mudanças?" agentes otimizados para testes instantâneos escrevem código frágil que passa nos testes hoje, mas se torna insustentável amanhã. A Alibaba construiu o EvoScore para pesar iterações posteriores mais pesadamente do que as iniciais. agentes que sacrificam a qualidade do código por vitórias rápidas são punidos quando as consequências se acumulam. a narrativa da codificação de IA acaba de se tornar mais honesta: a maioria dos modelos pode escrever código. quase nenhum consegue mantê-lo.