Jsem špatný v posílání věcí včas! (moje omluva je, že letos opět učím v Addis Coderu) Posterová sekce pro tento článek probíhá PRÁVĚ TEĎ! Session5: V-Collect Najít 28.7.2025 18:00-19:30 Pozdravte @ChuxuanHu :)
Daniel Kang
Daniel Kang29. 7. 2025
Mohou agenti umělé inteligence posoudit reprodukovatelnost výsledků výzkumu? Náš #ACL2025 článek ukazuje, že zaostávají za REPRO-Bench, novým benchmarkem, který hodnotí agenty v reálných úlohách reprodukovatelnosti společenských věd ze 112 článků, plných PDF, kódu a dat. Náš nejvýkonnější agent má skóre <40 %! 1/6
2,68K