Bisakah agen AI menilai reproduktifitas temuan penelitian? Makalah #ACL2025 kami menunjukkan bahwa mereka gagal dengan REPRO-Bench, tolok ukur baru yang mengevaluasi agen pada tugas reproduktifitas ilmu sosial dunia nyata dari 112 makalah, PDF lengkap, kode, dan data. Skor agen kami dengan kinerja tertinggi <40%! 1/6
Tautan di sini dan utas di bawah ini: Kertas: Kode: Subtumpukan: Sedang: 2/6
REPRO-Bench terdiri dari 112 instans tugas, masing-masing dibangun dari upaya reproduktifitas dunia nyata yang bersumber dari proyek reproduksi massal, I4R, Retraction Watch, dan upaya reproduktifitas yang diposting di Twitter/X. Setiap tugas mencakup PDF kertas, kode & data reproduksi, dan daftar temuan utama. 3/6
Kami mengevaluasi 3 agen populer di REPRO-Bench. Agen berkinerja terbaik, CORE-Agent, hanya mencapai akurasi 21,4%, yang lebih rendah dari tebakan acak (25%). 4/6
Kami memperkenalkan REPRO-Agent, agen yang ditingkatkan berdasarkan analisis kegagalan kami. Hanya dengan empat instruksi tambahan, REPRO-Agent meningkatkan akurasi menjadi 36,6%, peningkatan relatif 71% dibandingkan CORE-Agent, sambil mempertahankan biaya yang sebanding. 5/6
Karya ini digabungkan dengan @ChuxuanHu, Austin Peters, dan lainnya. 6/6
6K