Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Pueden los agentes de IA evaluar la reproducibilidad de los resultados de la investigación?
Nuestro artículo de #ACL2025 muestra que se quedan cortos con REPRO-Bench, un nuevo punto de referencia que evalúa a los agentes en tareas de reproducibilidad de ciencias sociales del mundo real de 112 artículos, PDF completos, código y datos. ¡Nuestros agentes de mayor rendimiento obtienen puntajes <40%!
1/6

Enlaces aquí y hilo a continuación:
Papel:
Código:
Subpila:
Medio:
2/6
REPRO-Bench consta de 112 instancias de tareas, cada una construida a partir de esfuerzos de reproducibilidad del mundo real provenientes de proyectos de reproducción masiva, I4R, Retraction Watch e intentos de reproducibilidad publicados en Twitter / X. Cada tarea incluye un PDF en papel, código de reproducción y datos, y una lista de los principales hallazgos.
3/6

Evaluamos 3 agentes populares en REPRO-Bench. El agente con mejor rendimiento, CORE-Agent, logra solo un 21,4% de precisión, que es inferior a las conjeturas aleatorias (25%).
4/6
Presentamos REPRO-Agent, un agente mejorado basado en nuestro análisis de fallos. Con solo cuatro instrucciones adicionales, REPRO-Agent aumenta la precisión al 36,6%, una mejora relativa del 71% con respecto al CORE-Agent, manteniendo un costo comparable.
5/6
Este trabajo es conjunto con @ChuxuanHu, Austin Peters y otros.
6/6
6.01K
Populares
Ranking
Favoritas