Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨NOTÍCIA DE ÚLTIMA HORA: A Alibaba testou agentes de codificação de IA em 100 bases de código reais, ao longo de 233 dias cada.
os agentes falharam espetacularmente.
acontece que passar testes uma vez é fácil. manter o código por 8 meses sem quebrar tudo é onde a IA colapsa.
O SWE-CI é o primeiro benchmark que mede a manutenção de código a longo prazo em vez de correções de bugs pontuais.
cada tarefa rastreia 71 commits consecutivos de evolução real.
75% dos modelos de IA quebram código que anteriormente funcionava durante a manutenção.
somente o Claude Opus 4 mantém uma taxa de zero-regressão acima de 50%. todos os outros modelos acumulam dívida técnica que se compõe ao longo das iterações.
a parte brutal é a seguinte:
- HumanEval e SWE-bench medem "funciona agora?"
- SWE-CI mede "ainda funciona após 6 meses de mudanças?"
agentes otimizados para testes instantâneos escrevem código frágil que passa nos testes hoje, mas se torna insustentável amanhã.
A Alibaba construiu o EvoScore para pesar iterações posteriores mais pesadamente do que as iniciais. agentes que sacrificam a qualidade do código por vitórias rápidas são punidos quando as consequências se acumulam.
a narrativa da codificação de IA acaba de se tornar mais honesta: a maioria dos modelos pode escrever código. quase nenhum consegue mantê-lo.

Top
Classificação
Favoritos
