Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨ÚLTIMA HORA: Alibaba probó agentes de codificación de IA en 100 bases de código reales, cada una durante 233 días.
Los agentes fracasaron estrepitosamente.
Resulta que pasar los exámenes una vez es fácil. mantener el código durante 8 meses sin romperlo todo es donde la IA colapsa.
SWE-CI es el primer benchmark que mide el mantenimiento a largo plazo del código en lugar de correcciones de errores de una sola vez.
Cada tarea registra 71 compromisos consecutivos de evolución real.
El 75% de los modelos de IA rompen código que ya funcionaba durante el mantenimiento.
solo Claude Opus 4 se mantiene por encima del 50% de tasa de regresión cero. todos los demás modelos acumulan deuda técnica que se acumula a lo largo de las iteraciones.
Aquí viene la parte brutal:
- HumanEval y la medida de banco SWE "¿funciona ahora mismo?"
- SWE-CI mide "¿sigue funcionando después de 6 meses de cambios"
Los agentes optimizados para pruebas de instantáneas escriben código frágil que pasa las pruebas hoy pero que mañana deja de mantenerse.
Alibaba construyó EvoScore para que las iteraciones posteriores pesaran más que las primeras. Los agentes que sacrifican calidad del código para ganar rápidamente son castigados cuando las consecuencias se acumulan.
la narrativa de la codificación por IA acaba de volverse más honesta: la mayoría de los modelos pueden escribir código. Casi ninguno puede mantenerlo.

Populares
Ranking
Favoritas
