Я погано вмію публікувати речі вчасно! (моє виправдання, що цього року я знову викладаю в Addis Coder) Постерна сесія для цієї роботи відбувається ПРЯМО ЗАРАЗ! Сесія 5: V-Collect Find 28.07.2025 18:00-19:30 Привітайтеся з @ChuxuanHu :)
Daniel Kang
Daniel Kang29 лип. 2025 р.
Чи можуть агенти штучного інтелекту оцінити відтворюваність результатів досліджень? Наш #ACL2025 документ показує, що вони не дотягують до REPRO-Bench, нового еталону, який оцінює агентів у реальних завданнях відтворюваності соціальних наук, що складаються зі 112 статей, повних PDF-файлів, коду та даних. Наші найвищі оцінки агентів <40%! 1/6
2,68K