AI 代理能否評估研究結果的可重複性? 我們的 #ACL2025 論文顯示,使用 REPRO-Bench 的 AI 代理在現實社會科學可重複性任務中表現不佳,該基準評估了 112 篇論文的完整 PDF、代碼和數據。我們表現最好的代理得分不到 40%! 1/6
這裡的連結和下面的主題: 文件: 代碼: Substack: Medium: 2/6
REPRO-Bench 由 112 個任務實例組成,每個實例都來自於來自大規模重現項目、I4R、撤回監視和在 Twitter/X 上發布的重現嘗試的真實世界重現努力。每個任務都包括一篇論文 PDF、重現代碼和數據,以及主要發現的列表。 3/6
我們在 REPRO-Bench 上評估了 3 個受歡迎的代理。表現最佳的代理 CORE-Agent 只有 21.4% 的準確率,這低於隨機猜測的 25%。 4/6
我們介紹 REPRO-Agent,這是一個基於我們失敗分析的改進代理。僅需四條額外指令,REPRO-Agent 的準確率提升至 36.6%,相較於 CORE-Agent 提升了 71% 的相對改善,同時保持了可比的成本。 5/6
這項工作是與 @ChuxuanHu、Austin Peters 和其他人共同完成的。 6/6
6K