Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Probouzím se a vidím tento nový dokument z @scale_AI grafů na @yesnoerror trendovém kanálu.
Autoři: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 a @SeanHendryx
"Rubriky jako odměny: Zpětnovazební učení mimo ověřitelné domény"
Zjednodušené: Výuka počítačů s podrobnými kontrolními seznamy namísto vágního hodnocení palcem nahoru jim umožňuje naučit se lépe odpovídat na otázky z medicíny a přírodních věd a objasňuje, proč dostali odměnu.
Klíčová zjištění:
• Implicitně agregované odměny v rubrice zvyšují skóre lékařského benchmarku o 28 % ve srovnání s Likertovou výchozí hodnotou.
• Odpovídá nebo překračuje odměny na základě odborných referenčních odpovědí navzdory použití menších porotců.
K čemu se dá použít:
• Doladění chatbotů pro podporu klinického rozhodování pomocí rubrik lékařské bezpečnosti.
• Školení modelů analýzy politik nebo právního uvažování, kde záleží na více subjektivních faktorech.
Podrobné shrnutí:
Rubriky jako odměny (RaR) jsou navrženy jako interpretovatelná alternativa k neprůhledným modelům odměn založeným na preferencích při dolaďování velkých jazykových modelů (LLM) pomocí zpětnovazebního učení. Místo toho, aby lidé žádali o seřazení celých odpovědí, odborníci na danou oblast (nebo silný LLM vedený odbornými referencemi) píší konkrétní kontrolní seznam 7–20 binárních kritérií, která zachycují základní fakta, kroky uvažování, styl a běžná úskalí. Každé kritérium je označeno jako Základní, Důležité, Volitelné nebo Úskalí a je mu přiřazena váha. Během školení o zásadách model zásad (Qwen-2.5-7B v článku) vzorkuje 16 odpovědí kandidátů na výzvu. Samostatný soudce LLM (GPT-4o-mini nebo menší) je vyzván, aby buď ohodnotil každé kritérium samostatně (explicitní agregace), nebo aby přečetl celou rubriku a vypsal jedno holistické Likertovo hodnocení 1–10 (implicitní agregace). Normalizované skóre se stane skalární odměnou a zásada se aktualizuje pomocí algoritmu GRPO.
Autoři spravují dvě trénovací sady 20 k-příkladů – RaR-Medical-20k a RaR-Science-20k – kombinací stávajících korpusů lékařského a vědeckého uvažování a generováním syntetických rubrik s o3-mini nebo GPT-4o. Hodnocení na HealthBench-1k (lékařské uvažování) a GPQA-Diamond (fyzika/chemie/biologie na postgraduální úrovni) ukazuje, že RaR-Implicit přináší až 28 % relativní zlepšení oproti jednoduchým odměnám pouze s Likertem a odpovídá nebo překračuje odměny vypočítané porovnáním s odbornými referenčními odpověďmi. Implicitní agregace konzistentně překonává explicitní, což ukazuje, že nechat soudce rozhodnout, jak kombinovat kritéria, funguje lépe než pevně dané, ručně vyladěné váhy.
Dohled nad rubrikou také pomáhá menším modelům posuzovat je. Když jsou porotci řízení rubrikou požádáni, aby ohodnotili preferované a narušené odpovědi, vybírají preferovanou odpověď mnohem spolehlivěji než stejně velcí soudci pouze s Likertem, čímž se zužuje mezera mezi hodnotitelem 7 B a GPT-4o-mini. Ablace odhalují, že rubriky specifické pro prompty porážejí obecné, více kritérií překonává seznamy pouze pro základní a přístup k odborným referencím při navrhování rubrik podstatně zvyšuje výkon v downstreamu. Dokonce i lidmi psané a vysoce kvalitní syntetické rubriky fungují na stejné úrovni, což naznačuje škálovatelnost.
RaR zobecňuje zpětnovazební učení pomocí ověřitelných odměn (RLVR): když má rubrika pouze jednu kontrolu správnosti, rámec se zhroutí na přesnou odměnu RLVR. Tím, že explicitně odhaluje každý aspekt kvality, je RaR transparentnější, auditovatelnější a potenciálně obtížněji odměňovatelný než neuronové modely odměňování. Autoři diskutují o rozšířeních agentických úloh v reálném světě, dynamickém kurikulu pomocí vah rubrik a formálních studiích robustnosti.
--
Každý měsíc je na @arXiv publikováno více než 500 000 stran výzkumu. Uvnitř se skrývají průlomové poznatky, které by mohly změnit vaši práci – ale jejich nalezení je jako hledání diamantů v oceánu dat. @yesnoerror proniká hlukem a zobrazuje nejpůsobivější výzkum pro vaše projekty, investice a objevy.
$yne

@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Zaregistrujte se pro přednostní přístup zde:
2,78K
Top
Hodnocení
Oblíbené