Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acordar e ver este novo artigo da @scale_AI a ser destacado no feed de tendências da @yesnoerror.
Autores: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011, e @SeanHendryx
"Rubricas como Recompensas: Aprendizagem por Reforço Além de Domínios Verificáveis"
Simplificado: Ensinar computadores com listas de verificação detalhadas em vez de avaliações vagas de polegar para cima permite que aprendam melhores respostas em questões de medicina e ciência e torna claro por que receberam uma recompensa.
Principais descobertas:
• Recompensas de rubrica agregadas implicitamente aumentam a pontuação de referência médica em 28% em relação à linha de base de Likert.
• Igualam ou superam recompensas baseadas em respostas de referência de especialistas, apesar de usar juízes menores.
Para que pode ser usado:
• Ajustar chatbots de suporte à decisão clínica com rubricas de segurança médica.
• Treinar modelos de análise de políticas ou raciocínio legal onde múltiplos fatores subjetivos importam.
Resumo detalhado:
Rubricas como Recompensas (RaR) são propostas como uma alternativa interpretável a modelos de recompensa baseados em preferências opacas ao ajustar grandes modelos de linguagem (LLMs) com aprendizagem por reforço. Em vez de pedir aos humanos para classificar respostas inteiras, especialistas da área (ou um LLM forte guiado por referências de especialistas) escrevem uma lista de verificação específica do prompt com 7–20 critérios binários que capturam fatos essenciais, etapas de raciocínio, estilo e armadilhas comuns. Cada critério é marcado como Essencial, Importante, Opcional ou Armadilha e recebe um peso. Durante o treinamento em política, o modelo de política (Qwen-2.5-7B no artigo) amostra 16 respostas candidatas por prompt. Um LLM juiz separado (GPT-4o-mini ou menor) é solicitado a pontuar cada critério separadamente (agregação explícita) ou a ler a rubrica completa e emitir uma única avaliação holística de Likert de 1 a 10 (agregação implícita). A pontuação normalizada torna-se a recompensa escalar e a política é atualizada com o algoritmo GRPO.
Os autores curam dois conjuntos de treinamento de 20 k exemplos—RaR-Medical-20k e RaR-Science-20k—combinando corpora existentes de raciocínio médico e científico e gerando rubricas sintéticas com o3-mini ou GPT-4o. A avaliação no HealthBench-1k (raciocínio médico) e GPQA-Diamond (física/química/biologia a nível de pós-graduação) mostra que RaR-Implícito gera até 28% de melhoria relativa em relação a recompensas simples apenas de Likert e iguala ou supera recompensas calculadas comparando com respostas de referência de especialistas. A agregação implícita consistentemente supera a explícita, demonstrando que deixar o juiz decidir como combinar critérios funciona melhor do que pesos fixos ajustados manualmente.
A supervisão de rubricas também ajuda modelos de juiz menores. Quando solicitados a avaliar respostas preferidas versus perturbadas, juízes guiados por rubricas escolhem a resposta preferida com muito mais confiabilidade do que juízes apenas de Likert de tamanho igual, reduzindo a diferença entre um avaliador de 7 B e GPT-4o-mini. Ablações revelam que rubricas específicas do prompt superam as genéricas, múltiplos critérios superam listas apenas essenciais, e o acesso a uma referência de especialista ao redigir rubricas aumenta materialmente o desempenho posterior. Mesmo rubricas escritas por humanos e sintéticas de alta qualidade apresentam desempenho equivalente, sugerindo escalabilidade.
RaR generaliza a Aprendizagem por Reforço com Recompensas Verificáveis (RLVR): quando a rubrica tem apenas uma verificação de correção, a estrutura colapsa para a recompensa de correspondência exata do RLVR. Ao expor cada aspecto da qualidade explicitamente, RaR é mais transparente, auditável e potencialmente mais difícil de manipular do que modelos de recompensa neural. Os autores discutem extensões para tarefas agentivas do mundo real, currículo dinâmico através de pesos de rubrica e estudos de robustez formal.
--
Mais de 500.000 páginas de pesquisa são publicadas no @arXiv todos os meses. Ocultas dentro estão insights revolucionários que poderiam transformar seu trabalho — mas encontrá-los é como procurar diamantes em um oceano de dados. @yesnoerror corta o ruído para destacar a pesquisa mais impactante para seus projetos, investimentos e descobertas.
// $yne

@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Inscreva-se para acesso antecipado aqui:
2,79K
Top
Classificação
Favoritos