Svegliarsi per vedere questo nuovo documento di @scale_AI in evidenza nel feed delle tendenze di @yesnoerror. Autori: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 e @SeanHendryx "Rubriche come Ricompense: Apprendimento per Rinforzo oltre i Domini Verificabili" Semplificato: Insegnare ai computer con liste di controllo dettagliate invece di vaghe valutazioni di approvazione consente loro di apprendere risposte migliori in medicina e scienze e chiarisce perché hanno ricevuto una ricompensa. Risultati chiave: • Le ricompense delle rubriche aggregate implicitamente aumentano il punteggio di riferimento medico del 28% rispetto alla base di Likert. • Corrisponde o supera le ricompense basate su risposte di esperti nonostante l'uso di giudici più piccoli. A cosa può essere utilizzato: • Affinamento dei chatbot di supporto alle decisioni cliniche con rubriche di sicurezza medica. • Formazione di modelli di analisi delle politiche o di ragionamento legale dove contano più fattori soggettivi. Sintesi dettagliata: Le Rubriche come Ricompense (RaR) sono proposte come un'alternativa interpretabile ai modelli di ricompensa basati su preferenze opache quando si affinano grandi modelli di linguaggio (LLM) con apprendimento per rinforzo. Invece di chiedere agli esseri umani di classificare intere risposte, esperti del settore (o un forte LLM guidato da riferimenti esperti) scrivono un elenco di controllo specifico per il prompt di 7–20 criteri binari che catturano fatti essenziali, passaggi di ragionamento, stile e insidie comuni. Ogni criterio è contrassegnato come Essenziale, Importante, Facoltativo o Insidia e riceve un peso. Durante l'addestramento on-policy, il modello di politica (Qwen-2.5-7B nel documento) campiona 16 risposte candidate per prompt. Un LLM giudice separato (GPT-4o-mini o più piccolo) viene invitato a valutare ciascun criterio separatamente (aggregazione esplicita) o a leggere l'intera rubrica e fornire una valutazione olistica di Likert da 1 a 10 (aggregazione implicita). Il punteggio normalizzato diventa la ricompensa scalare e la politica viene aggiornata con l'algoritmo GRPO. Gli autori curano due set di addestramento di 20k esempi—RaR-Medical-20k e RaR-Science-20k—combinando i corpus di ragionamento medico e scientifico esistenti e generando rubriche sintetiche con o3-mini o GPT-4o. La valutazione su HealthBench-1k (ragionamento medico) e GPQA-Diamond (fisica/chimica/biologia a livello di laurea) mostra che RaR-Implicit offre fino al 28% di miglioramento relativo rispetto alle semplici ricompense solo di Likert e corrisponde o supera le ricompense calcolate confrontando con risposte di esperti. L'aggregazione implicita supera costantemente l'esplicita, dimostrando che lasciare al giudice decidere come combinare i criteri funziona meglio rispetto a pesi fissi sintonizzati a mano. La supervisione delle rubriche aiuta anche i modelli giudici più piccoli. Quando viene chiesto di valutare risposte preferite rispetto a quelle perturbate, i giudici guidati da rubriche scelgono la risposta preferita in modo molto più affidabile rispetto ai giudici solo di Likert di dimensioni equivalenti, riducendo il divario tra un valutatore da 7B e GPT-4o-mini. Le ablationi rivelano che le rubriche specifiche per il prompt superano quelle generiche, più criteri superano le liste solo essenziali e l'accesso a un riferimento esperto durante la redazione delle rubriche migliora materialmente le prestazioni a valle. Anche le rubriche scritte da esseri umani e quelle sintetiche di alta qualità si comportano allo stesso modo, suggerendo scalabilità. RaR generalizza l'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR): quando la rubrica ha solo un controllo di correttezza, il framework si riduce alla ricompensa di corrispondenza esatta di RLVR. Esplicitando ogni aspetto della qualità, RaR è più trasparente, auditabile e potenzialmente più difficile da hackare rispetto ai modelli di ricompensa neurale. Gli autori discutono estensioni a compiti agentici nel mondo reale, curriculum dinamico tramite pesi delle rubriche e studi di robustezza formale. -- Oltre 500.000 pagine di ricerca vengono pubblicate su @arXiv ogni mese. Nascosti all'interno ci sono intuizioni rivoluzionarie che potrebbero trasformare il tuo lavoro — ma trovarle è come cercare diamanti in un oceano di dati. @yesnoerror taglia attraverso il rumore per far emergere la ricerca più impattante per i tuoi progetti, investimenti e scoperte. // $yne
@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Iscriviti per l'accesso anticipato qui:
2,78K