SWE-bench Verified es el estándar de oro para evaluar agentes de codificación: 500 problemas del mundo real + pruebas de OpenAI. ¿Suena a prueba de balas? Casi. Mostramos pasar sus pruebas unitarias != coincidiendo con la verdad fundamental. En nuestro documento de ACL, corrigimos evaluaciones con errores: ¡el 24% de los agentes subieron o bajaron en la tabla de clasificación! 1/7
Ejemplo: django PR-13933. El agente corrigió un mensaje de error, pero interrumpió silenciosamente la ejecución normal. Todas las pruebas son verdes, mientras que el parche se bloquearía en producción. 3/7
Para abordar los casos de prueba insuficientes en SWE-bench, desarrollamos UTBoost, un generador de casos de prueba basado en LLM para proyectos de Python a gran escala. Bajo el capó, UTboost primero localiza el código relevante de una manera detallada (nivel de archivo -> nivel de función -> nivel de línea) y luego genera automáticamente pruebas de estilo pytest. 4/7
Dados los casos de prueba generados, verificamos su corrección y reevaluamos los agentes en las tablas de clasificación actuales de SWE-bench Lite y Verified: - SWE-bench Lite: +28,4% más de parches erróneos detectados - SWE-bench verificado: +15.7% - Los rangos cambiaron 40.9 % (Lite) y 24.4 % (Verificado) 5/7
Lección: Las pruebas son difíciles y aún más difíciles cuando la IA escribe el código. Los puntos de referencia deben evolucionar con suites más sólidas y en constante crecimiento. Esperamos que UTBoost sea un paso hacia evaluaciones más confiables. 6/7
Este es un trabajo conjunto con @BoshCavendish, @maxYuxuanZhu y @PinjiaHE 7/7
24.87K