Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

¿Pueden los agentes de IA evaluar la reproducibilidad de los resultados de la investigación? Nuestro artículo de #ACL2025 muestra que se quedan cortos con REPRO-Bench, un nuevo punto de referencia que evalúa a los agentes en tareas de reproducibilidad de ciencias sociales del mundo real de 112 artículos, PDF completos, código y datos. ¡Nuestros agentes de mayor rendimiento obtienen puntajes <40%! 1/6

Enlaces aquí y hilo a continuación: Papel: Código: Subpila: Medio: 2/6

REPRO-Bench consta de 112 instancias de tareas, cada una construida a partir de esfuerzos de reproducibilidad del mundo real provenientes de proyectos de reproducción masiva, I4R, Retraction Watch e intentos de reproducibilidad publicados en Twitter / X. Cada tarea incluye un PDF en papel, código de reproducción y datos, y una lista de los principales hallazgos. 3/6

Evaluamos 3 agentes populares en REPRO-Bench. El agente con mejor rendimiento, CORE-Agent, logra solo un 21,4% de precisión, que es inferior a las conjeturas aleatorias (25%). 4/6

Presentamos REPRO-Agent, un agente mejorado basado en nuestro análisis de fallos. Con solo cuatro instrucciones adicionales, REPRO-Agent aumenta la precisión al 36,6%, una mejora relativa del 71% con respecto al CORE-Agent, manteniendo un costo comparable. 5/6

Este trabajo es conjunto con @ChuxuanHu, Austin Peters y otros. 6/6

6.01K

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas