Kan AI-agenter bedöma reproducerbarheten av forskningsresultat? Vår #ACL2025-rapport visar att de inte når upp till REPRO-Bench, ett nytt riktmärke som utvärderar agenter på verkliga samhällsvetenskapliga reproducerbarhetsuppgifter för 112 artiklar, fullständiga PDF-filer, kod och data. Vår bäst presterande agent får <40 %! 1/6
Länkar här och tråd nedan: Papper: Kod: Understack: Medium: 2/6
REPRO-Bench består av 112 uppgiftsinstanser, var och en byggd av verkliga reproducerbarhetsinsatser som kommer från massreproduktionsprojekt, I4R, Retraction Watch och reproducerbarhetsförsök som publicerats på Twitter/X. Varje uppgift innehåller en PDF-fil i pappersformat, reproduktionskod och data samt en lista över viktiga upptäckter. 3/6
Vi utvärderar 3 populära agenter på REPRO-Bench. Den bäst presterande agenten, CORE-Agent, uppnår endast 21,4 % noggrannhet, vilket är lägre än slumpmässig gissning (25 %). 4/6
Vi introducerar REPRO-Agent, ett förbättrat medel baserat på vår felanalys. Med bara fyra ytterligare instruktioner ökar REPRO-Agent noggrannheten till 36,6 %, en relativ förbättring med 71 % jämfört med CORE-Agent, samtidigt som den jämförbara kostnaden bibehålls. 5/6
Detta arbete är gemensamt med @ChuxuanHu, Austin Peters och andra. 6/6
6,01K