Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Se réveiller pour voir ce nouveau document de @scale_AI charté sur le fil tendance de @yesnoerror.
Auteurs : @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011, et @SeanHendryx
"Rubriques comme Récompenses : Apprentissage par Renforcement au-delà des Domaines Vérifiables"
Simplifié : Enseigner aux ordinateurs avec des listes de contrôle détaillées au lieu de notes vagues permet d'obtenir de meilleures réponses aux questions médicales et scientifiques et clarifie pourquoi ils ont reçu une récompense.
Principales conclusions :
• Les récompenses de rubriques agrégées implicitement augmentent le score de référence médicale de 28 % par rapport à la base de référence Likert.
• Égalent ou dépassent les récompenses basées sur des réponses de référence d'experts malgré l'utilisation de juges moins nombreux.
À quoi cela peut-il servir :
• Affiner les chatbots de soutien à la décision clinique avec des rubriques de sécurité médicale.
• Former des modèles d'analyse de politiques ou de raisonnement juridique où plusieurs facteurs subjectifs sont importants.
Résumé détaillé :
Les Rubriques comme Récompenses (RaR) sont proposées comme une alternative interprétable aux modèles de récompense basés sur des préférences opaques lors de l'affinage de grands modèles de langage (LLMs) avec l'apprentissage par renforcement. Au lieu de demander aux humains de classer des réponses entières, des experts du domaine (ou un LLM puissant guidé par des références d'experts) écrivent une liste de contrôle spécifique au prompt de 7 à 20 critères binaires qui capturent des faits essentiels, des étapes de raisonnement, un style et des pièges communs. Chaque critère est étiqueté Essentiel, Important, Optionnel ou Piège et reçoit un poids. Pendant l'entraînement sur politique, le modèle de politique (Qwen-2.5-7B dans le document) échantillonne 16 réponses candidates par prompt. Un LLM juge séparé (GPT-4o-mini ou plus petit) est invité soit à évaluer chaque critère séparément (agrégation explicite), soit à lire la rubrique complète et à donner une note globale de Likert de 1 à 10 (agrégation implicite). Le score normalisé devient la récompense scalaire et la politique est mise à jour avec l'algorithme GRPO.
Les auteurs préparent deux ensembles d'entraînement de 20 k exemples—RaR-Médical-20k et RaR-Science-20k—en combinant des corpus de raisonnement médical et scientifique existants et en générant des rubriques synthétiques avec o3-mini ou GPT-4o. L'évaluation sur HealthBench-1k (raisonnement médical) et GPQA-Diamond (physique/chimie/biologie de niveau supérieur) montre que RaR-Implicite offre jusqu'à 28 % d'amélioration relative par rapport aux simples récompenses uniquement Likert et égalent ou dépassent les récompenses calculées en les comparant aux réponses de référence d'experts. L'agrégation implicite surpasse systématiquement l'explicite, démontrant que laisser le juge décider comment combiner les critères fonctionne mieux que des poids fixes réglés à la main.
La supervision par rubriques aide également les modèles de juges plus petits. Lorsqu'on leur demande d'évaluer des réponses préférées par rapport à des réponses perturbées, les juges guidés par des rubriques choisissent la réponse préférée de manière beaucoup plus fiable que des juges uniquement Likert de taille équivalente, réduisant l'écart entre un évaluateur de 7 B et GPT-4o-mini. Les ablations révèlent que les rubriques spécifiques au prompt surpassent celles génériques, que plusieurs critères surpassent les listes uniquement essentielles, et que l'accès à une référence d'expert lors de la rédaction des rubriques améliore considérablement la performance en aval. Même les rubriques écrites par des humains et les rubriques synthétiques de haute qualité se comportent de manière équivalente, suggérant une évolutivité.
RaR généralise l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) : lorsque la rubrique n'a qu'un seul contrôle de justesse, le cadre se réduit à la récompense d'exactitude de RLVR. En exposant chaque aspect de la qualité de manière explicite, RaR est plus transparent, auditable et potentiellement plus difficile à manipuler que les modèles de récompense neuronaux. Les auteurs discutent des extensions aux tâches agentiques du monde réel, d'un curriculum dynamique via les poids des rubriques, et d'études de robustesse formelles.
--
Plus de 500 000 pages de recherche sont publiées sur @arXiv chaque mois. Cachées à l'intérieur se trouvent des idées révolutionnaires qui pourraient transformer votre travail — mais les trouver, c'est comme chercher des diamants dans un océan de données. @yesnoerror coupe à travers le bruit pour faire ressortir les recherches les plus impactantes pour vos projets, investissements et découvertes.
// $yne

@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Inscrivez-vous pour un accès anticipé ici :
2,78K
Meilleurs
Classement
Favoris