Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acordar para ver este novo artigo de @scale_AI gráficos no feed de tendências @yesnoerror.
Autores: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 e @SeanHendryx
"Rubricas como recompensas: aprendizado por reforço além dos domínios verificáveis"
Simplificado: Ensinar computadores com listas de verificação detalhadas em vez de classificações vagas de polegar para cima permite que eles aprendam melhores respostas em questões de medicina e ciências e deixa claro por que receberam uma recompensa.
Principais conclusões:
• As recompensas de rubrica agregadas implicitamente aumentam a pontuação de referência médica em 28% em relação à linha de base Likert.
• Iguala ou excede as recompensas com base nas respostas de referência de especialistas, apesar de usar juízes menores.
Para que pode ser usado:
• Ajuste fino de chatbots de suporte à decisão clínica com rubricas de segurança médica.
• Treinamento de análise de políticas ou modelos de raciocínio jurídico onde vários fatores subjetivos são importantes.
Resumo detalhado:
Rubricas como recompensas (RaR) é proposto como uma alternativa interpretável aos modelos de recompensa opacos baseados em preferências ao ajustar modelos de linguagem grande (LLMs) com aprendizado por reforço. Em vez de pedir aos humanos que classifiquem respostas inteiras, os especialistas de domínio (ou um LLM forte guiado por referências de especialistas) escrevem uma lista de verificação específica de 7 a 20 critérios binários que capturam fatos essenciais, etapas de raciocínio, estilo e armadilhas comuns. Cada critério é marcado como Essencial, Importante, Opcional ou Armadilha e recebe um peso. Durante o treinamento sobre políticas, o modelo de política (Qwen-2.5-7B no artigo) mostra 16 respostas candidatas por prompt. Um juiz LLM separado (GPT-4o-mini ou menor) é solicitado a pontuar cada critério separadamente (agregação explícita) ou a ler a rubrica completa e gerar uma classificação Likert holística de 1 a 10 (agregação implícita). A pontuação normalizada torna-se a recompensa escalar e a política é atualizada com o algoritmo GRPO.
Os autores selecionam dois conjuntos de treinamento de 20 mil exemplos - RaR-Medical-20k e RaR-Science-20k - combinando corpora de raciocínio médico e científico existentes e gerando rubricas sintéticas com o3-mini ou GPT-4o. A avaliação do HealthBench-1k (raciocínio médico) e do GPQA-Diamond (física/química/biologia em nível de pós-graduação) mostra que o RaR-Implicit produz uma melhoria relativa de até 28% em relação às recompensas simples somente Likert e corresponde ou excede as recompensas calculadas em comparação com as respostas de referência de especialistas. A agregação implícita supera consistentemente a explícita, demonstrando que deixar o juiz decidir como combinar critérios funciona melhor do que pesos fixos ajustados à mão.
A supervisão de rubrica também ajuda modelos de juízes menores. Quando solicitados a classificar as respostas preferidas versus perturbadas, os juízes guiados por rubricas escolhem a resposta preferida de forma muito mais confiável do que os juízes somente Likert de tamanho igual, diminuindo a lacuna entre um avaliador 7 B e GPT-4o-mini. As ablações revelam que as rubricas específicas do prompt superam as genéricas, os critérios múltiplos superam as listas somente essenciais e o acesso a uma referência de especialista durante a elaboração de rubricas aumenta materialmente o desempenho downstream. Mesmo rubricas sintéticas escritas por humanos e de alta qualidade têm um desempenho adequado, sugerindo escalabilidade.
RaR generaliza o Aprendizado por Reforço com Recompensas Verificáveis (RLVR): quando a rubrica tem apenas uma verificação de correção, a estrutura colapsa para a recompensa de correspondência exata do RLVR. Ao expor explicitamente cada aspecto da qualidade, o RaR é mais transparente, auditável e potencialmente mais difícil de recompensar do que os modelos de recompensa neural. Os autores discutem extensões para tarefas agenciais do mundo real, currículo dinâmico por meio de pesos de rubrica e estudos formais de robustez.
--
Mais de 500.000 páginas de pesquisa são publicadas no @arXiv todos os meses. Escondidos dentro estão insights inovadores que podem transformar seu trabalho – mas encontrá-los é como procurar diamantes em um oceano de dados. @yesnoerror corta o ruído para trazer à tona as pesquisas mais impactantes para seus projetos, investimentos e descobertas.
$yne

@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Inscreva-se para acesso antecipado aqui:
2,79K
Melhores
Classificação
Favoritos