DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Kan AI-agenter bedöma reproducerbarheten av forskningsresultat? Vår #ACL2025-rapport visar att de inte når upp till REPRO-Bench, ett nytt riktmärke som utvärderar agenter på verkliga samhällsvetenskapliga reproducerbarhetsuppgifter för 112 artiklar, fullständiga PDF-filer, kod och data. Vår bäst presterande agent får <40 %! 1/6

Länkar här och tråd nedan: Papper: Kod: Understack: Medium: 2/6

REPRO-Bench består av 112 uppgiftsinstanser, var och en byggd av verkliga reproducerbarhetsinsatser som kommer från massreproduktionsprojekt, I4R, Retraction Watch och reproducerbarhetsförsök som publicerats på Twitter/X. Varje uppgift innehåller en PDF-fil i pappersformat, reproduktionskod och data samt en lista över viktiga upptäckter. 3/6

Vi utvärderar 3 populära agenter på REPRO-Bench. Den bäst presterande agenten, CORE-Agent, uppnår endast 21,4 % noggrannhet, vilket är lägre än slumpmässig gissning (25 %). 4/6

Vi introducerar REPRO-Agent, ett förbättrat medel baserat på vår felanalys. Med bara fyra ytterligare instruktioner ökar REPRO-Agent noggrannheten till 36,6 %, en relativ förbättring med 71 % jämfört med CORE-Agent, samtidigt som den jämförbara kostnaden bibehålls. 5/6

Detta arbete är gemensamt med @ChuxuanHu, Austin Peters och andra. 6/6

6,01K

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda