Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨ÚLTIMA HORA: A Alibaba testou agentes de codificação de IA em 100 bases de código reais, com duração de 233 dias cada.
Os agentes falharam espetacularmente.
Acontece que passar uma vez nos testes é fácil. manter código por 8 meses sem quebrar tudo é onde a IA colapsa.
O SWE-CI é o primeiro benchmark que mede a manutenção de código de longo prazo em vez de correções de bugs únicas.
Cada tarefa acompanha 71 commits consecutivos de real evolution.
75% dos modelos de IA quebram códigos que já funcionavam durante a manutenção.
apenas Claude Opus 4 permanece acima de 50% de taxa de regressão zero. todo outro modelo acumula dívida técnica que se acumula ao longo das iterações.
Aqui está a parte brutal:
- HumanEval e medida de banco SWE "funciona agora"
- SWE-CI mede "ainda funciona após 6 meses de mudanças"
Agentes otimizados para testes de snapshot escrevem código frágil que passa nos testes hoje, mas se torna insustentável amanhã.
A Alibaba construiu o EvoScore para pesar versões posteriores mais pesadas do que as iniciais. Agentes que sacrificam qualidade de código por vitórias rápidas são punidos quando as consequências se acumulam.
a narrativa de codificação por IA ficou mais honesta: a maioria dos modelos sabe escrever código. quase ninguém consegue mantê-lo.

Melhores
Classificação
Favoritos
