Aufwachen und dieses neue Papier von @scale_AI in dem Trending-Feed von @yesnoerror zu sehen. Autoren: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 und @SeanHendryx "Rubriken als Belohnungen: Verstärkendes Lernen über verifizierbare Bereiche hinaus" Vereinfacht: Computern mit detaillierten Checklisten anstelle von vagen Daumen-hoch-Bewertungen beizubringen, ermöglicht es ihnen, bessere Antworten auf medizinische und wissenschaftliche Fragen zu lernen und macht klar, warum sie eine Belohnung erhalten haben. Wichtigste Ergebnisse: • Implizit aggregierte Rubrikbelohnungen steigern den medizinischen Benchmark-Score um 28 % im Vergleich zur Likert-Basislinie. • Entspricht oder übertrifft Belohnungen, die auf Expertenreferenzantworten basieren, obwohl kleinere Richter verwendet werden. Wofür kann es verwendet werden: • Feinabstimmung von klinischen Entscheidungsunterstützungs-Chatbots mit medizinischen Sicherheitsrubriken. • Training von Modellen zur Politik-Analyse oder juristischen Argumentation, bei denen mehrere subjektive Faktoren wichtig sind. Detaillierte Zusammenfassung: Rubriken als Belohnungen (RaR) werden als interpretierbare Alternative zu undurchsichtigen, präferenzbasierten Belohnungsmodellen vorgeschlagen, wenn große Sprachmodelle (LLMs) mit verstärkendem Lernen feinabgestimmt werden. Anstatt Menschen zu bitten, ganze Antworten zu bewerten, schreiben Fachexperten (oder ein starkes LLM, das von Expertenreferenzen geleitet wird) eine prompt-spezifische Checkliste von 7–20 binären Kriterien, die wesentliche Fakten, Denkprozesse, Stil und häufige Fallstricke erfassen. Jedes Kriterium wird als Essentiell, Wichtig, Optional oder Fallstrick gekennzeichnet und erhält ein Gewicht. Während des On-Policy-Trainings probiert das Politikmodell (Qwen-2.5-7B im Papier) 16 Kandidatenantworten pro Prompt aus. Ein separates Richter-LLM (GPT-4o-mini oder kleiner) wird entweder aufgefordert, jedes Kriterium separat zu bewerten (explizite Aggregation) oder die gesamte Rubrik zu lesen und eine ganzheitliche Likert-Bewertung von 1–10 auszugeben (implizite Aggregation). Der normalisierte Score wird zur skalaren Belohnung und die Politik wird mit dem GRPO-Algorithmus aktualisiert. Die Autoren kuratieren zwei Trainingssätze mit 20.000 Beispielen – RaR-Medical-20k und RaR-Science-20k – indem sie bestehende medizinische und wissenschaftliche Denk-Korpora kombinieren und synthetische Rubriken mit o3-mini oder GPT-4o generieren. Die Bewertung auf HealthBench-1k (medizinisches Denken) und GPQA-Diamond (Physik/Chemie/Biologie auf Graduierten-Niveau) zeigt, dass RaR-Implizit bis zu 28 % relative Verbesserung gegenüber einfachen Likert-nur-Belohnungen erzielt und Belohnungen erreicht oder übertrifft, die durch den Vergleich mit Expertenreferenzantworten berechnet wurden. Implizite Aggregation übertrifft konsequent explizite und zeigt, dass es besser funktioniert, den Richter entscheiden zu lassen, wie die Kriterien kombiniert werden, als feste, handabgestimmte Gewichte zu verwenden. Rubrikaufsicht hilft auch kleineren Richtermodellen. Wenn sie gebeten werden, bevorzugte gegenüber veränderten Antworten zu bewerten, wählen rubrikgeführte Richter die bevorzugte Antwort viel zuverlässiger als gleich große Likert-nur-Richter, wodurch die Lücke zwischen einem 7B-Evaluator und GPT-4o-mini verringert wird. Ablationen zeigen, dass prompt-spezifische Rubriken generischen überlegen sind, mehrere Kriterien besser sind als nur essentielle Listen und der Zugang zu einer Expertenreferenz beim Entwurf von Rubriken die nachgelagerte Leistung erheblich steigert. Selbst menschlich geschriebene und qualitativ hochwertige synthetische Rubriken schneiden gleichwertig ab, was auf Skalierbarkeit hindeutet. RaR generalisiert Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR): Wenn die Rubrik nur eine Richtigkeitsprüfung hat, kollabiert der Rahmen auf die exakte Übereinstimmungsbelohnung von RLVR. Durch die explizite Offenlegung jedes Aspekts der Qualität ist RaR transparenter, prüfbar und potenziell schwieriger zu manipulieren als neuronale Belohnungsmodelle. Die Autoren diskutieren Erweiterungen für reale agentische Aufgaben, dynamische Lehrpläne über Rubrikgewichte und formale Robustheitsstudien. -- Über 500.000 Seiten Forschung werden jeden Monat auf @arXiv veröffentlicht. Versteckt darin sind bahnbrechende Erkenntnisse, die Ihre Arbeit transformieren könnten – aber sie zu finden, ist wie die Suche nach Diamanten in einem Ozean von Daten. @yesnoerror durchbricht das Rauschen, um die wirkungsvollsten Forschungen für Ihre Projekte, Investitionen und Entdeckungen zu präsentieren. // $yne
@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Melden Sie sich hier für den frühen Zugang an:
2,78K