Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wakker worden en dit nieuwe artikel van @scale_AI zien op de trending feed van @yesnoerror.
Auteurs: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011, en @SeanHendryx
"Rubrics als Beloningen: Versterkend Leren Buiten Verifieerbare Domeinen"
Vereenvoudigd: Computers leren met gedetailleerde checklists in plaats van vage duimen-omhoog beoordelingen, waardoor ze betere antwoorden leren op medische en wetenschappelijke vragen en het duidelijk wordt waarom ze een beloning kregen.
Belangrijkste bevindingen:
• Impliciet geaggregeerde rubricbeloningen verhogen de medische benchmarkscore met 28% ten opzichte van de Likert-basislijn.
• Evenaart of overtreft beloningen op basis van expertreferentie-antwoorden, ondanks het gebruik van kleinere beoordelaars.
Waarvoor kan het worden gebruikt:
• Fijn afstemmen van klinische beslissingsondersteunende chatbots met medische veiligheidsrubrieken.
• Training van beleidsanalyse- of juridische redeneermodellen waar meerdere subjectieve factoren belangrijk zijn.
Gedetailleerde samenvatting:
Rubrics als Beloningen (RaR) wordt voorgesteld als een interpreteerbaar alternatief voor ondoorzichtige op voorkeur gebaseerde beloningsmodellen bij het fijn afstemmen van grote taalmodellen (LLM's) met versterkend leren. In plaats van mensen te vragen om hele antwoorden te rangschikken, schrijven domeinexperts (of een sterk LLM geleid door expertreferenties) een prompt-specifieke checklist van 7–20 binaire criteria die essentiële feiten, redeneerstappen, stijl en veelvoorkomende valkuilen vastleggen. Elk criterium is gemarkeerd als Essentieel, Belangrijk, Optioneel of Valkuil en krijgt een gewicht. Tijdens on-policy training monsteren het beleidsmodel (Qwen-2.5-7B in het artikel) 16 kandidaat-antwoorden per prompt. Een aparte beoordelings-LLM (GPT-4o-mini of kleiner) wordt gevraagd om elk criterium afzonderlijk te scoren (expliciete aggregatie) of om de volledige rubric te lezen en één holistische Likert-beoordeling 1–10 te geven (impliciete aggregatie). De genormaliseerde score wordt de scalare beloning en het beleid wordt bijgewerkt met het GRPO-algoritme.
De auteurs cureren twee trainingssets van 20 k-voorbeelden—RaR-Medical-20k en RaR-Science-20k—door bestaande medische en wetenschappelijke redeneercorpora te combineren en synthetische rubrieken te genereren met o3-mini of GPT-4o. Evaluatie op HealthBench-1k (medische redeneerkunde) en GPQA-Diamond (graduate-niveau natuurkunde/chemie/biologie) toont aan dat RaR-Implicit tot 28% relatieve verbetering oplevert ten opzichte van eenvoudige Likert-only beloningen en evenaart of overtreft beloningen die zijn berekend door te vergelijken met expertreferentie-antwoorden. Impliciete aggregatie presteert consequent beter dan expliciete, wat aantoont dat het beter werkt als de beoordelaar beslist hoe criteria te combineren dan vaste handmatig afgestelde gewichten.
Rubric-supervisie helpt ook kleinere beoordelingsmodellen. Wanneer gevraagd wordt om voorkeuren te beoordelen tussen voorkeur- en verstoorde antwoorden, kiezen rubric-geleide beoordelaars veel betrouwbaarder het voorkeurantwoord dan gelijkwaardige Likert-only beoordelaars, waardoor de kloof tussen een 7 B-evaluator en GPT-4o-mini wordt verkleind. Ablaties onthullen dat prompt-specifieke rubrieken beter presteren dan generieke, meerdere criteria beter zijn dan alleen essentiële lijsten, en toegang tot een expertreferentie tijdens het opstellen van rubrieken de downstream-prestaties aanzienlijk verbetert. Zelfs door mensen geschreven en hoogwaardige synthetische rubrieken presteren gelijkwaardig, wat schaalbaarheid suggereert.
RaR generaliseert Versterkend Leren met Verifieerbare Beloningen (RLVR): wanneer de rubric slechts één correctheidscontrole heeft, valt het kader samen met de exacte-match beloning van RLVR. Door elk aspect van kwaliteit expliciet bloot te stellen, is RaR transparanter, controleerbaar en mogelijk moeilijker te belonen-hacken dan neurale beloningsmodellen. De auteurs bespreken uitbreidingen naar real-world agenttaken, dynamische curricula via rubricgewichten, en formele robuustheidsstudies.
--
Elke maand worden er meer dan 500.000 pagina's onderzoek gepubliceerd op @arXiv. Verborgen daarin zijn doorbraakinzichten die uw werk kunnen transformeren — maar ze vinden is als zoeken naar diamanten in een oceaan van gegevens. @yesnoerror snijdt door de ruis heen om het meest impactvolle onderzoek voor uw projecten, investeringen en ontdekkingen naar boven te halen.
// $yne

Meld je hier aan voor vroege toegang:
2,84K
Boven
Positie
Favorieten