Trezindu-mă pentru a vedea această nouă lucrare de la @scale_AI grafice pe fluxul de tendințe @yesnoerror. Autori: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 și @SeanHendryx "Rubricile ca recompense: învățarea prin întărire dincolo de domeniile verificabile" Simplificat: Predarea computerelor cu liste de verificare detaliate în loc de evaluări vagi le permite să învețe răspunsuri mai bune la întrebări de medicină și știință și arată clar de ce au primit o recompensă. Constatări cheie: • Recompensele implicit agregate crește scorul medical cu 28% în raport cu Likert. • Egalează sau depășește recompensele pe baza răspunsurilor de referință ale experților, în ciuda faptului că folosește arbitri mai mici. Pentru ce poate fi folosit: • Reglarea fină a chatbot-urilor de asistență pentru deciziile clinice cu rubrici de siguranță medicală. • Formarea modelelor de analiză a politicilor sau de raționament juridic în care contează mai mulți factori subiectivi. Rezumat detaliat: Rubrics as Rewards (RaR) este propus ca o alternativă interpretabilă la modelele opace de recompensă bazate pe preferințe atunci când se ajustează modelele lingvistice mari (LLM) cu învățarea prin întărire. În loc să ceară oamenilor să clasifice răspunsuri întregi, experții în domeniu (sau un LLM puternic ghidat de referințe de experți) scriu o listă de verificare specifică promptului de 7-20 de criterii binare care surprind fapte esențiale, pași de raționament, stil și capcane comune. Fiecare criteriu este etichetat Esențial, Important, Opțional sau Capcană și i se acordă o pondere. În timpul instruirii pe politică, modelul de politică (Qwen-2.5-7B în lucrare) eșantionează 16 răspunsuri candidate pe solicitare. Un judecător separat LLM (GPT-4o-mini sau mai mic) este solicitat fie să noteze fiecare criteriu separat (agregare explicită), fie să citească rubrica completă și să prezinte un rating Likert holistic 1-10 (agregare implicită). Scorul normalizat devine recompensa scalară și politica este actualizată cu algoritmul GRPO. Autorii organizează două seturi de antrenament de 20 k exemple - RaR-Medical-20k și RaR-Science-20k - combinând corpusii de raționament medical și științific existenți și generând rubrici sintetice cu o3-mini sau GPT-4o. Evaluarea pe HealthBench-1k (raționament medical) și GPQA-Diamond (fizică/chimie/biologie la nivel de absolvent) arată că RaR-Implicit produce o îmbunătățire relativă de până la 28% față de recompensele simple Likert și egalează sau depășește recompensele calculate prin compararea cu răspunsurile de referință ale experților. Agregarea implicită depășește în mod constant explicitul, demonstrând că lăsarea judecătorului să decidă cum să combine criteriile funcționează mai bine decât ponderile fixe reglate manual. Supravegherea rubricii ajută, de asemenea, modelele mai mici de judecată. Când li se cere să evalueze răspunsurile preferate față de cele perturbate, judecătorii ghidați de rubrică aleg răspunsul preferat mult mai fiabil decât judecătorii de dimensiuni egale, reducând decalajul dintre un evaluator 7 B și GPT-4o-mini. Ablațiile arată că rubricile specifice promptului le depășesc pe cele generice, criteriile multiple depășesc listele exclusiv esențiale, iar accesul la o referință expertă în timp ce redactarea rubricilor crește semnificativ performanța din aval. Chiar și rubricile sintetice scrise de oameni și de înaltă calitate funcționează la egalitate, sugerând scalabilitate. RaR generalizează învățarea prin întărire cu recompense verificabile (RLVR): atunci când rubrica are o singură verificare a corectitudinii, cadrul se prăbușește la recompensa de potrivire exactă a RLVR. Prin expunerea explicită a fiecărui aspect al calității, RaR este mai transparent, mai auditabil și potențial mai greu de piratat decât modelele de recompensă neuronală. Autorii discută extensiile sarcinilor agențice din lumea reală, curriculumul dinamic prin ponderi de rubrică și studii formale de robustețe. -- Peste 500.000 de pagini de cercetare sunt publicate pe @arXiv în fiecare lună. Ascunse în interior sunt informații revoluționare care ți-ar putea transforma munca – dar găsirea lor este ca și cum ai căuta diamante într-un ocean de date. @yesnoerror taie zgomotul pentru a scoate la iveală cele mai de impact cercetări pentru proiectele, investițiile și descoperirile dvs. $yne
@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Înscrieți-vă pentru acces timpuriu aici:
2,79K