DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

O aprendizado por reforço permite que os LLMs vençam os humanos em competições de programação / matemática e impulsionou avanços recentes (série o da OpenAI, Claude 4 da Anthropic) A RL permitirá uma ampla generalização da mesma forma que o pré-treinamento? Não com as técnicas atuais 🧵 1/7

🔗Links aqui e tópico abaixo: Papel: Média: Subpilha: 2/7

A avaliação existente para LLMs avalia principalmente o desempenho no domínio, usando modelos de pós-treinamento de reforço (RPT) treinados em dados de domínio misto e avaliados em benchmarks estreitamente alinhados com seus domínios de treinamento. Essas configurações introduzem fatores de confusão que obscurecem a verdadeira extensão da capacidade de generalização do RPT 3/7

Apresentamos uma estrutura de avaliação unificada que isola e testa a generalização entre domínios do RPT usando 16 benchmarks em matemática, código e raciocínio intensivo em conhecimento. Dentro dessa estrutura, avaliamos várias combinações de modelos básicos e estratégias de RPT 4/7

📌 Nossas principais descobertas: 1️⃣ Os ganhos de RPT são principalmente no domínio 2️⃣ Matemática e código generalizam-se bem um para o outro 3️⃣ Habilidades estruturadas não são transferidas para tarefas não estruturadas e intensivas em conhecimento 5/7

A lição? O RPT é poderoso, mas estreito Melhora o desempenho onde é treinado, mas generaliza mal 6/7

Este trabalho é conjunto com @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai e @jasoncbenn 7/7

2,64K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável