DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Bisakah agen AI menilai reproduktifitas temuan penelitian? Makalah #ACL2025 kami menunjukkan bahwa mereka gagal dengan REPRO-Bench, tolok ukur baru yang mengevaluasi agen pada tugas reproduktifitas ilmu sosial dunia nyata dari 112 makalah, PDF lengkap, kode, dan data. Skor agen kami dengan kinerja tertinggi <40%! 1/6

Tautan di sini dan utas di bawah ini: Kertas: Kode: Subtumpukan: Sedang: 2/6

REPRO-Bench terdiri dari 112 instans tugas, masing-masing dibangun dari upaya reproduktifitas dunia nyata yang bersumber dari proyek reproduksi massal, I4R, Retraction Watch, dan upaya reproduktifitas yang diposting di Twitter/X. Setiap tugas mencakup PDF kertas, kode & data reproduksi, dan daftar temuan utama. 3/6

Kami mengevaluasi 3 agen populer di REPRO-Bench. Agen berkinerja terbaik, CORE-Agent, hanya mencapai akurasi 21,4%, yang lebih rendah dari tebakan acak (25%). 4/6

Kami memperkenalkan REPRO-Agent, agen yang ditingkatkan berdasarkan analisis kegagalan kami. Hanya dengan empat instruksi tambahan, REPRO-Agent meningkatkan akurasi menjadi 36,6%, peningkatan relatif 71% dibandingkan CORE-Agent, sambil mempertahankan biaya yang sebanding. 5/6

Karya ini digabungkan dengan @ChuxuanHu, Austin Peters, dan lainnya. 6/6

6K

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal