Ik ben slecht in het op tijd plaatsen van dingen! (mijn excuus is dat ik dit jaar weer lesgeef bij Addis Coder) De poster sessie voor dit paper vindt NU PLAATS! Sessie 5: V-Gather Vind 28/07/2025 18:00-19:30 Zeg hallo tegen @ChuxuanHu :)
Daniel Kang
Daniel Kang29 jul 2025
Kunnen AI-agenten de reproduceerbaarheid van onderzoeksresultaten beoordelen? Ons #ACL2025-papier toont aan dat ze tekortschieten met REPRO-Bench, een nieuwe benchmark die agenten evalueert op echte sociale wetenschappelijke reproduceerbaarheidstaken van 112 artikelen, volledige PDF's, code en data. Onze best presterende agent scoort <40%! 1/6
2,69K