Чи можуть агенти штучного інтелекту оцінити відтворюваність результатів досліджень? Наш #ACL2025 документ показує, що вони не дотягують до REPRO-Bench, нового еталону, який оцінює агентів у реальних завданнях відтворюваності соціальних наук, що складаються зі 112 статей, повних PDF-файлів, коду та даних. Наші найвищі оцінки агентів <40%! 1/6
Посилання тут і гілка нижче: Папір: Код: Підстек: Середнє: 2/6
REPRO-Bench складається зі 112 екземплярів завдань, кожен з яких створений на основі реальних зусиль щодо відтворення, отриманих від проектів масового відтворення, I4R, Retraction Watch та спроб відтворення, опублікованих у Twitter/X. Кожне завдання містить паперовий PDF-файл, код відтворення та дані, а також список основних висновків. 3/6
Оцінюємо 3 популярних агента на REPRO-Bench. Найефективніший агент, CORE-Agent, досягає точності лише 21,4%, що нижче, ніж при випадковому вгадуванні (25%). 4/6
Ми представляємо REPRO-Agent, вдосконалений агент, заснований на нашому аналізі відмов. Завдяки лише чотирьом додатковим інструкціям REPRO-Agent підвищує точність до 36,6%, що на 71% є відносним покращенням у порівнянні з CORE-Agent, зберігаючи при цьому порівнянну вартість. 5/6
Ця робота є спільною з @ChuxuanHu, Остіном Пітерсом та іншими. 6/6
6,01K