Vaknar upp för att se det här nya dokumentet från @scale_AI som kartlägger det @yesnoerror trendflödet. Författare: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 och @SeanHendryx "Rubriker som belöningar: Förstärkningsinlärning bortom verifierbara domäner" Förenklat: Att undervisa datorer med detaljerade checklistor istället för vaga tummen upp-betyg gör att de lär sig bättre svar på medicinska och naturvetenskapliga frågor och gör det tydligt varför de fick en belöning. Viktiga resultat: • Implicit aggregerade rubrikbelöningar ökar den medicinska benchmarkpoängen med 28 % i förhållande till Likert-baslinjen. • Matchar eller överträffar belöningar baserat på experternas referenssvar trots att de använder mindre domare. Vad kan den användas till: • Finjustera chattrobotar för kliniskt beslutsstöd med rubriker för medicinsk säkerhet. • Träna policyanalys eller juridiska resonemangsmodeller där flera subjektiva faktorer spelar roll. Detaljerad sammanfattning: Rubrics as Rewards (RaR) föreslås som ett tolkningsbart alternativ till ogenomskinliga preferensbaserade belöningsmodeller vid finjustering av stora språkmodeller (LLM) med förstärkningsinlärning. Istället för att be människor att rangordna hela svar, skriver domänexperter (eller en stark LLM vägledd av expertreferenser) en promptspecifik checklista med 7–20 binära kriterier som fångar viktiga fakta, resonemangssteg, stil och vanliga fallgropar. Varje kriterium är taggat Essential, Important, Optionaleller Pitcase och ges en vikt. Under den politiska träningen samplar policymodellen (Qwen-2.5-7B i artikeln) 16 kandidatsvar per fråga. En separat domare LLM (GPT-4o-mini eller mindre) uppmanas att antingen poängsätta varje kriterium separat (explicit aggregering) eller att läsa hela rubriken och mata ut ett holistiskt Likert-betyg 1–10 (implicit aggregering). Den normaliserade poängen blir den skalära belöningen och principen uppdateras med GRPO-algoritmen. Författarna kurerar två 20 k-exempel träningsset – RaR-Medical-20k och RaR-Science-20k – genom att kombinera befintliga korpusar för medicinska och vetenskapliga resonemang och generera syntetiska rubriker med o3-mini eller GPT-4o. Utvärdering av HealthBench-1k (medicinskt resonemang) och GPQA-Diamond (fysik/kemi/biologi på forskarnivå) visar att RaR-Implicit ger upp till 28 % relativ förbättring jämfört med enkla Likert-belöningar och matchar eller överträffar belöningar som beräknats genom att jämföra med expertreferenssvar. Implicit aggregering presterar konsekvent bättre än explicit, vilket visar att det fungerar bättre att låta domaren bestämma hur kriterierna ska kombineras än fasta handjusterade vikter. Bedömningskriterier är också till hjälp för mindre domarmodeller. När de ombeds att betygsätta föredragna kontra störda svar väljer rubrikstyrda domare det föredragna svaret på ett mycket mer tillförlitligt sätt än domare av samma storlek som endast Likert, vilket minskar klyftan mellan en 7 B-utvärderare och GPT-4o-mini. Ablationer visar att promptspecifika rubriker slår generiska rubriker, flera kriterier slår listor som endast är viktiga och tillgång till en expertreferens när du utarbetar rubriker ökar avsevärt prestanda nedströms. Till och med mänskligt skrivna och högkvalitativa syntetiska rubriker presterar på samma nivå, vilket tyder på skalbarhet. RaR generaliserar Reinforcement Learning with Verifiable Rewards (RLVR): när matrisen bara har en korrekthetskontroll kollapsar ramverket till RLVR:s exakta matchningsbelöning. Genom att exponera varje aspekt av kvalitet explicit är RaR mer transparent, granskningsbar och potentiellt svårare att reward-hacka än neurala belöningsmodeller. Författarna diskuterar utvidgningar av verkliga agentiska uppgifter, dynamisk läroplan via matrisvikter och formella robusthetsstudier. -- Över 500 000 sidor forskning publiceras på @arXiv varje månad. Inuti finns banbrytande insikter som kan förändra ditt arbete – men att hitta dem är som att leta efter diamanter i ett hav av data. @yesnoerror skär igenom bruset för att ta fram den mest effektfulla forskningen för dina projekt, investeringar och upptäckter. $yne
@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Anmäl dig för tidig tillgång här:
2,86K