Kan AI-agenter vurdere reproduserbarheten til forskningsresultater? Vår #ACL2025 artikkel viser at de kommer til kort med REPRO-Bench, en ny målestokk som evaluerer agenter på virkelige samfunnsvitenskapelige reproduserbarhetsoppgaver på 112 artikler, fullstendige PDF-er, kode og data. Vår best presterende agent scorer <40%! 1/6
Lenker her og tråd nedenfor: Papir: Kode: Substack: Middels: 2/6
REPRO-Bench består av 112 oppgaveforekomster, hver bygget fra reproduserbarhetsinnsats fra den virkelige verden hentet fra massereproduksjonsprosjekter, I4R, Retraction Watch og reproduserbarhetsforsøk lagt ut på Twitter/X. Hver oppgave inkluderer en papir-PDF, reproduksjonskode og data, og en liste over viktige funn. 3/6
Vi vurderer 3 populære agenter på REPRO-Bench. Den beste agenten, CORE-Agent, oppnår bare 21,4 % nøyaktighet, noe som er lavere enn tilfeldig gjetting (25 %). 4/6
Vi introduserer REPRO-Agent, et forbedret middel basert på vår feilanalyse. Med bare fire ekstra instruksjoner øker REPRO-Agent nøyaktigheten til 36,6 %, en relativ forbedring på 71 % i forhold til CORE-Agent, samtidig som sammenlignbare kostnader opprettholdes. 5/6
Dette arbeidet er felles med @ChuxuanHu, Austin Peters og andre. 6/6
6,65K