Je ne suis pas doué pour poster des choses à temps ! (mon excuse est que j'enseigne à Addis Coder encore cette année) La session d'affichage pour cet article a lieu MAINTENANT ! Session5 : V-Gather Trouver 28/07/2025 18:00-19:30 Dites bonjour à @ChuxuanHu :)
Daniel Kang
Daniel Kang29 juil. 2025
Les agents IA peuvent-ils évaluer la reproductibilité des résultats de recherche ? Notre article #ACL2025 montre qu'ils sont insuffisants avec REPRO-Bench, une nouvelle référence qui évalue les agents sur des tâches de reproductibilité en sciences sociales du monde réel à partir de 112 articles, PDF complets, code et données. Notre agent le plus performant obtient un score de <40 % ! 1/6
2,67K