Våkner opp for å se denne nye artikkelen fra @scale_AI kartlegging på @yesnoerror trendfeed. Forfattere: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 og @SeanHendryx "Rubrikker som belønning: Forsterkende læring utover verifiserbare domener" Forenklet: Å lære datamaskiner med detaljerte sjekklister i stedet for vage tommel opp-vurderinger lar dem lære bedre svar i medisin og naturvitenskapelige spørsmål og gjør det klart hvorfor de fikk en belønning. Viktige funn: • Implisitte aggregerte rubrikkbelønninger øker medisinsk benchmarkscore med 28 % i forhold til Likert-baseline. • Matcher eller overgår belønninger basert på ekspertreferansesvar til tross for at du bruker mindre dommere. Hva kan den brukes til: • Finjustering av chatbots for klinisk beslutningsstøtte med medisinske sikkerhetsrubrikker. • Opplæring i policyanalyse eller juridiske resonnementmodeller der flere subjektive faktorer betyr noe. Detaljert oppsummering: Rubrikker som belønninger (RaR) foreslås som et tolkbart alternativ til ugjennomsiktige preferansebaserte belønningsmodeller ved finjustering av store språkmodeller (LLM) med forsterkende læring. I stedet for å be mennesker om å rangere hele svar, skriver domeneeksperter (eller en sterk LLM veiledet av ekspertreferanser) en spørsmålsspesifikk sjekkliste med 7–20 binære kriterier som fanger opp viktige fakta, resonneringstrinn, stil og vanlige fallgruver. Hvert kriterium er merket som Viktig, Viktig, Valgfritt eller Fallgruve og gis en vekt. Under opplæring på policy prøver policymodellen (Qwen-2.5-7B i papiret) 16 kandidatsvar per forespørsel. En egen dommer LLM (GPT-4o-mini eller mindre) blir bedt om enten å skåre hvert kriterium separat (eksplisitt aggregering) eller lese hele rubrikken og gi ut en helhetlig Likert-vurdering 1–10 (implisitt aggregering). Den normaliserte poengsummen blir skalarbelønningen, og policyen oppdateres med GRPO-algoritmen. Forfatterne kuraterer to treningssett med 20 k eksempler – RaR-Medical-20k og RaR-Science-20k – ved å kombinere eksisterende medisinske og vitenskapelige resonnementkorpus og generere syntetiske rubrikker med o3-mini eller GPT-4o. Evaluering av HealthBench-1k (medisinsk resonnement) og GPQA-Diamond (fysikk/kjemi/biologi på høyere nivå) viser at RaR-Implicit gir opptil 28 % relativ forbedring i forhold til enkle belønninger og matcher kun for Likert, eller overstiger belønninger beregnet ved å sammenligne med ekspertreferansesvar. Implisitt aggregering overgår konsekvent eksplisitt, noe som viser at det å la dommeren bestemme hvordan kriterier skal kombineres fungerer bedre enn faste håndjusterte vekter. Rubrikktilsyn hjelper også mindre dommermodeller. Når de blir bedt om å rangere foretrukne kontra forstyrrede svar, velger vurderingsguidede dommere det foretrukne svaret langt mer pålitelig enn like store Likert-dommere, noe som reduserer gapet mellom en 7 B-evaluator og GPT-4o-mini. Ablasjoner avslører at prompt-spesifikke rubrikker slår generiske, flere kriterier slår bare essensielle lister, og tilgang til en ekspertreferanse mens utarbeidelse av rubrikker øker nedstrømsytelsen vesentlig. Selv menneskeskrevne og høykvalitets syntetiske rubrikker presterer på nivå, noe som tyder på skalerbarhet. RaR generaliserer forsterkende læring med verifiserbare belønninger (RLVR): når rubrikken bare har én korrekthetskontroll, kollapser rammeverket til RLVRs belønning for nøyaktig match. Ved å eksponere hvert aspekt av kvalitet eksplisitt, er RaR mer gjennomsiktig, reviderbar og potensielt vanskeligere å belønne enn nevrale belønningsmodeller. Forfatterne diskuterer utvidelser av agentiske oppgaver i den virkelige verden, dynamisk læreplan via rubrikkvekter og formelle robusthetsstudier. -- Over 500 000 sider med forskning publiseres på @arXiv hver måned. Skjult i det er banebrytende innsikt som kan forvandle arbeidet ditt – men å finne dem er som å lete etter diamanter i et hav av data. @yesnoerror skjærer gjennom støyen for å få frem den mest virkningsfulle forskningen for prosjektene, investeringene og oppdagelsene dine. $yne
@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Registrer deg for tidlig tilgang her:
2,79K