Saya buruk dalam memposting sesuatu tepat waktu! (alasan saya adalah saya mengajar di Addis Coder lagi tahun ini) Sesi poster untuk makalah ini sedang berlangsung SEKARANG! Sesi 5: V-Gather Find 7/28/2025 18:00-19:30 Sapa @ChuxuanHu :)
Daniel Kang
Daniel Kang29 Jul 2025
Bisakah agen AI menilai reproduktifitas temuan penelitian? Makalah #ACL2025 kami menunjukkan bahwa mereka gagal dengan REPRO-Bench, tolok ukur baru yang mengevaluasi agen pada tugas reproduktifitas ilmu sosial dunia nyata dari 112 makalah, PDF lengkap, kode, dan data. Skor agen kami dengan kinerja tertinggi <40%! 1/6
2,68K