¡Soy malo para publicar cosas a tiempo! (mi excusa es que estoy enseñando en Addis Coder nuevamente este año) ¡La sesión de pósteres de este artículo se está llevando a cabo AHORA MISMO! Sesión 5: V-Gather Find 28/07/2025 18:00-19:30 Saluda a @ChuxuanHu :)
Daniel Kang
Daniel Kang29 jul 2025
¿Pueden los agentes de IA evaluar la reproducibilidad de los resultados de la investigación? Nuestro artículo de #ACL2025 muestra que se quedan cortos con REPRO-Bench, un nuevo punto de referencia que evalúa a los agentes en tareas de reproducibilidad de ciencias sociales del mundo real de 112 artículos, PDF completos, código y datos. ¡Nuestros agentes de mayor rendimiento obtienen puntajes <40%! 1/6
2.69K