¡Soy malo publicando cosas a tiempo! (mi excusa es que estoy enseñando en Addis Coder de nuevo este año) ¡La sesión de carteles para este artículo está sucediendo AHORA MISMO! Sesión 5: V-Gather Encuentra 28/07/2025 18:00-19:30 Saluda a @ChuxuanHu :)
Daniel Kang
Daniel Kang29 jul 2025
¿Pueden los agentes de IA evaluar la reproducibilidad de los hallazgos de investigación? Nuestro artículo de #ACL2025 muestra que no lo logran con REPRO-Bench, un nuevo estándar que evalúa a los agentes en tareas de reproducibilidad de ciencias sociales del mundo real de 112 artículos, PDFs completos, código y datos. ¡Nuestro agente de mejor rendimiento obtiene menos del 40%! 1/6
2,67K