Я плохо справляюсь с публикацией вещей вовремя! (мое оправдание - я снова преподаю в Addis Coder в этом году) Сессия постеров для этой статьи проходит ПРЯМО СЕЙЧАС! Сессия 5: V-Gather Найти 28.07.2025 18:00-19:30 Поздоровайтесь с @ChuxuanHu :)
Daniel Kang
Daniel Kang29 июл. 2025 г.
Могут ли агенты ИИ оценивать воспроизводимость результатов исследований? Наша статья #ACL2025 показывает, что они не справляются с REPRO-Bench, новым эталоном, который оценивает агентов по задачам воспроизводимости в реальном мире в области социальных наук на основе 112 статей, полных PDF-файлов, кода и данных. Наш агент с наилучшей производительностью набирает <40%! 1/6
2,67K