DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

🚨ÚLTIMA HORA: Alibaba probó agentes de codificación AI en 100 bases de código reales, abarcando 233 días cada una. los agentes fracasaron espectacularmente. resulta que pasar pruebas una vez es fácil. mantener el código durante 8 meses sin romper todo es donde la IA colapsa. SWE-CI es el primer estándar que mide el mantenimiento a largo plazo del código en lugar de arreglos de errores puntuales. cada tarea rastrea 71 commits consecutivos de evolución real. El 75% de los modelos de IA rompen código que anteriormente funcionaba durante el mantenimiento. solo Claude Opus 4 se mantiene por encima del 50% de tasa de cero regresiones. todos los demás modelos acumulan deuda técnica que se complica con las iteraciones. aquí está la parte brutal: - HumanEval y SWE-bench miden "¿funciona ahora mismo?" - SWE-CI mide "¿sigue funcionando después de 6 meses de cambios?" los agentes optimizados para pruebas instantáneas escriben código frágil que pasa las pruebas hoy pero se vuelve inmantenible mañana. Alibaba construyó EvoScore para ponderar las iteraciones posteriores más que las primeras. los agentes que sacrifican la calidad del código por ganancias rápidas son castigados cuando las consecuencias se acumulan. la narrativa de la codificación AI acaba de volverse más honesta: la mayoría de los modelos pueden escribir código. casi ninguno puede mantenerlo.

Parte superior

Clasificación

Favoritos