Jag är dålig på att lägga upp saker i tid! (min ursäkt är att jag undervisar på Addis Coder i år igen) Postersessionen för denna tidning pågår JUST NU! Session5: V-Gather Find 2025-07-28 18:00-19:30 Säg hej till @ChuxuanHu :)
Daniel Kang
Daniel Kang29 juli 2025
Kan AI-agenter bedöma reproducerbarheten av forskningsresultat? Vår #ACL2025-rapport visar att de inte når upp till REPRO-Bench, ett nytt riktmärke som utvärderar agenter på verkliga samhällsvetenskapliga reproducerbarhetsuppgifter för 112 artiklar, fullständiga PDF-filer, kod och data. Vår bäst presterande agent får <40 %! 1/6
2,66K