Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bisakah agen AI menilai reproduktifitas temuan penelitian?
Makalah #ACL2025 kami menunjukkan bahwa mereka gagal dengan REPRO-Bench, tolok ukur baru yang mengevaluasi agen pada tugas reproduktifitas ilmu sosial dunia nyata dari 112 makalah, PDF lengkap, kode, dan data. Skor agen kami dengan kinerja tertinggi <40%!
1/6

Tautan di sini dan utas di bawah ini:
Kertas:
Kode:
Subtumpukan:
Sedang:
2/6
REPRO-Bench terdiri dari 112 instans tugas, masing-masing dibangun dari upaya reproduktifitas dunia nyata yang bersumber dari proyek reproduksi massal, I4R, Retraction Watch, dan upaya reproduktifitas yang diposting di Twitter/X. Setiap tugas mencakup PDF kertas, kode & data reproduksi, dan daftar temuan utama.
3/6

Kami mengevaluasi 3 agen populer di REPRO-Bench. Agen berkinerja terbaik, CORE-Agent, hanya mencapai akurasi 21,4%, yang lebih rendah dari tebakan acak (25%).
4/6
Kami memperkenalkan REPRO-Agent, agen yang ditingkatkan berdasarkan analisis kegagalan kami. Hanya dengan empat instruksi tambahan, REPRO-Agent meningkatkan akurasi menjadi 36,6%, peningkatan relatif 71% dibandingkan CORE-Agent, sambil mempertahankan biaya yang sebanding.
5/6
Karya ini digabungkan dengan @ChuxuanHu, Austin Peters, dan lainnya.
6/6
6K
Teratas
Peringkat
Favorit