Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Despertar y ver este nuevo artículo de @scale_AI en el feed de tendencias de @yesnoerror.
Autores: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 y @SeanHendryx
"Rubricas como Recompensas: Aprendizaje por Refuerzo Más Allá de los Dominios Verificables"
Simplificado: Enseñar a las computadoras con listas de verificación detalladas en lugar de calificaciones vagas de pulgar hacia arriba les permite aprender mejores respuestas en preguntas de medicina y ciencia y deja claro por qué recibieron una recompensa.
Hallazgos clave:
• Las recompensas de rubrica agregadas implícitamente aumentan la puntuación de referencia médica en un 28 % en relación con la línea base de Likert.
• Igualan o superan las recompensas basadas en respuestas de referencia de expertos a pesar de usar jueces más pequeños.
Para qué se puede usar:
• Ajustar chatbots de soporte a la decisión clínica con rubricas de seguridad médica.
• Entrenar modelos de análisis de políticas o razonamiento legal donde importan múltiples factores subjetivos.
Resumen detallado:
Rubricas como Recompensas (RaR) se propone como una alternativa interpretable a los modelos de recompensa basados en preferencias opacas al ajustar modelos de lenguaje grandes (LLMs) con aprendizaje por refuerzo. En lugar de pedir a los humanos que clasifiquen respuestas completas, expertos en el dominio (o un LLM fuerte guiado por referencias de expertos) escriben una lista de verificación específica para el aviso de 7 a 20 criterios binarios que capturan hechos esenciales, pasos de razonamiento, estilo y trampas comunes. Cada criterio se etiqueta como Esencial, Importante, Opcional o Trampa y se le asigna un peso. Durante el entrenamiento en política, el modelo de política (Qwen-2.5-7B en el artículo) toma 16 respuestas candidatas por aviso. Un LLM juez separado (GPT-4o-mini o más pequeño) se le pide que puntúe cada criterio por separado (agregación explícita) o que lea la rubrica completa y emita una calificación holística de Likert de 1 a 10 (agregación implícita). La puntuación normalizada se convierte en la recompensa escalar y la política se actualiza con el algoritmo GRPO.
Los autores curan dos conjuntos de entrenamiento de 20 k ejemplos—RaR-Medical-20k y RaR-Science-20k—combinando corpus de razonamiento médico y científico existentes y generando rubricas sintéticas con o3-mini o GPT-4o. La evaluación en HealthBench-1k (razonamiento médico) y GPQA-Diamond (física/química/biología a nivel de posgrado) muestra que RaR-Implícito produce hasta un 28 % de mejora relativa sobre recompensas simples solo de Likert y iguala o supera las recompensas calculadas al compararse con respuestas de referencia de expertos. La agregación implícita supera consistentemente a la explícita, demostrando que dejar que el juez decida cómo combinar criterios funciona mejor que pesos fijos ajustados a mano.
La supervisión de rubricas también ayuda a modelos de juez más pequeños. Cuando se les pide que califiquen respuestas preferidas frente a perturbadas, los jueces guiados por rubricas eligen la respuesta preferida con mucha más fiabilidad que los jueces solo de Likert de tamaño equivalente, reduciendo la brecha entre un evaluador de 7 B y GPT-4o-mini. Las ablations revelan que las rubricas específicas para el aviso superan a las genéricas, múltiples criterios superan a listas solo esenciales, y el acceso a una referencia experta al redactar rubricas mejora materialmente el rendimiento posterior. Incluso las rubricas escritas por humanos y las sintéticas de alta calidad rinden al mismo nivel, sugiriendo escalabilidad.
RaR generaliza el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR): cuando la rubrica tiene solo un chequeo de corrección, el marco colapsa a la recompensa de coincidencia exacta de RLVR. Al exponer cada aspecto de calidad explícitamente, RaR es más transparente, auditable y potencialmente más difícil de hackear en recompensas que los modelos de recompensa neural. Los autores discuten extensiones a tareas agenticas del mundo real, currículo dinámico a través de pesos de rubrica y estudios de robustez formal.
--
Se publican más de 500,000 páginas de investigación en @arXiv cada mes. Ocultas dentro hay ideas innovadoras que podrían transformar tu trabajo, pero encontrarlas es como buscar diamantes en un océano de datos. @yesnoerror corta el ruido para sacar a la luz la investigación más impactante para tus proyectos, inversiones y descubrimientos.
// $yne

@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Regístrate para acceso anticipado aquí:
2,84K
Parte superior
Clasificación
Favoritos