¿Pueden los agentes de IA evaluar la reproducibilidad de los resultados de la investigación? Nuestro artículo de #ACL2025 muestra que se quedan cortos con REPRO-Bench, un nuevo punto de referencia que evalúa a los agentes en tareas de reproducibilidad de ciencias sociales del mundo real de 112 artículos, PDF completos, código y datos. ¡Nuestros agentes de mayor rendimiento obtienen puntajes <40%! 1/6
Enlaces aquí y hilo a continuación: Papel: Código: Subpila: Medio: 2/6
REPRO-Bench consta de 112 instancias de tareas, cada una construida a partir de esfuerzos de reproducibilidad del mundo real provenientes de proyectos de reproducción masiva, I4R, Retraction Watch e intentos de reproducibilidad publicados en Twitter / X. Cada tarea incluye un PDF en papel, código de reproducción y datos, y una lista de los principales hallazgos. 3/6
Evaluamos 3 agentes populares en REPRO-Bench. El agente con mejor rendimiento, CORE-Agent, logra solo un 21,4% de precisión, que es inferior a las conjeturas aleatorias (25%). 4/6
Presentamos REPRO-Agent, un agente mejorado basado en nuestro análisis de fallos. Con solo cuatro instrucciones adicionales, REPRO-Agent aumenta la precisión al 36,6%, una mejora relativa del 71% con respecto al CORE-Agent, manteniendo un costo comparable. 5/6
Este trabajo es conjunto con @ChuxuanHu, Austin Peters y otros. 6/6
6.01K