Nu mă pricep să postez lucrurile la timp! (scuza mea este că predau la Addis Coder din nou anul acesta) Sesiunea de postere pentru această lucrare are loc CHIAR ACUM! Sesiunea 5: V-Gather Find 28.07.2025 18:00-19:30 Salută-@ChuxuanHu :)
Daniel Kang
Daniel Kang29 iul. 2025
Pot agenții AI să evalueze reproductibilitatea rezultatelor cercetării? Lucrarea noastră de #ACL2025 arată că nu sunt la REPRO-Bench, un nou punct de referință care evaluează agenții pe sarcini de reproductibilitate din științele sociale din lumea reală a 112 lucrări, PDF-uri complete, cod și date. Cel mai performant scor al nostru de agent <40%! 1/6
2,68K