DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Les agents IA peuvent-ils évaluer la reproductibilité des résultats de recherche ? Notre article #ACL2025 montre qu'ils sont insuffisants avec REPRO-Bench, une nouvelle référence qui évalue les agents sur des tâches de reproductibilité en sciences sociales du monde réel à partir de 112 articles, PDF complets, code et données. Notre agent le plus performant obtient un score de <40 % ! 1/6

Liens ici et fil ci-dessous : Document : Code : Substack : Medium : 2/6

REPRO-Bench se compose de 112 instances de tâches, chacune construite à partir d'efforts de reproductibilité du monde réel provenant de projets de reproduction de masse, I4R, Retraction Watch et des tentatives de reproductibilité publiées sur Twitter/X. Chaque tâche comprend un PDF d'article, du code et des données de reproduction, ainsi qu'une liste des principales conclusions. 3/6

Nous évaluons 3 agents populaires sur REPRO-Bench. L'agent le plus performant, CORE-Agent, n'atteint qu'une précision de 21,4 %, ce qui est inférieur à un tirage au sort (25 %). 4/6

Nous vous présentons REPRO-Agent, un agent amélioré basé sur notre analyse des échecs. Avec seulement quatre instructions supplémentaires, REPRO-Agent augmente la précision à 36,6 %, soit une amélioration relative de 71 % par rapport au CORE-Agent, tout en maintenant un coût comparable. 5/6

Ce travail est réalisé en collaboration avec @ChuxuanHu, Austin Peters, et d'autres. 6/6

6,35K

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables