Sono scarso a pubblicare le cose in tempo! (la mia scusa è che insegno di nuovo all'Addis Coder quest'anno) La sessione di poster per questo articolo sta avvenendo PROPRIO ORA! Sessione5: V-Gather Trova 28/07/2025 18:00-19:30 Saluta @ChuxuanHu :)
Daniel Kang
Daniel Kang29 lug 2025
Gli agenti AI possono valutare la riproducibilità dei risultati della ricerca? Il nostro articolo per #ACL2025 mostra che non ci riescono con REPRO-Bench, un nuovo benchmark che valuta gli agenti su compiti di riproducibilità delle scienze sociali nel mondo reale, basati su 112 articoli, PDF completi, codice e dati. Il nostro agente con le migliori prestazioni ottiene meno del 40%! 1/6
2,67K