Могут ли агенты ИИ оценивать воспроизводимость результатов исследований? Наша статья #ACL2025 показывает, что они не справляются с REPRO-Bench, новым эталоном, который оценивает агентов по задачам воспроизводимости в реальном мире в области социальных наук на основе 112 статей, полных PDF-файлов, кода и данных. Наш агент с наилучшей производительностью набирает <40%! 1/6
Ссылки здесь и тема ниже: Документ: Код: Substack: Medium: 2/6
REPRO-Bench состоит из 112 экземпляров задач, каждая из которых основана на реальных усилиях по воспроизводимости, полученных из проектов массового воспроизведения, I4R, Retraction Watch и попыток воспроизводимости, опубликованных в Twitter/X. Каждая задача включает PDF статьи, код и данные воспроизведения, а также список основных выводов. 3/6
Мы оцениваем 3 популярных агента на REPRO-Bench. Лучший агент, CORE-Agent, достигает всего 21,4% точности, что ниже, чем случайное угадывание (25%). 4/6
Мы представляем REPRO-Agent, улучшенный агент, основанный на нашем анализе неудач. С помощью всего четырех дополнительных инструкций REPRO-Agent повышает точность до 36,6%, что является относительным улучшением на 71% по сравнению с CORE-Agent, при этом сохраняя сопоставимые затраты. 5/6
Эта работа выполнена совместно с @ChuxuanHu, Остином Питерсом и другими. 6/6
6,01K