Jeg er dårlig til å legge ut ting i tide! (unnskyldningen min er at jeg underviser ved Addis Coder igjen i år) Postersesjonen for denne artikkelen skjer AKKURAT NÅ! Sesjon 5: V-Gather Finn 28.07.2025 18:00-19:30 Si hei til @ChuxuanHu :)
Daniel Kang
Daniel Kang29. juli 2025
Kan AI-agenter vurdere reproduserbarheten til forskningsresultater? Vår #ACL2025 artikkel viser at de kommer til kort med REPRO-Bench, en ny målestokk som evaluerer agenter på virkelige samfunnsvitenskapelige reproduserbarhetsoppgaver på 112 artikler, fullstendige PDF-er, kode og data. Vår best presterende agent scorer <40%! 1/6
2,67K