Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

O aprendizado por reforço permite que os LLMs superem humanos em competições de programação/matemática e tem impulsionado os avanços recentes (o série da OpenAI, Claude 4 da Anthropic) O RL permitirá uma generalização ampla da mesma forma que o pré-treinamento? Não com as técnicas atuais 🧵 1/7

🔗Links aqui e thread abaixo: Paper: Medium: Substack: 2/7

A avaliação existente para LLMs avalia principalmente o desempenho em domínio, utilizando modelos de treinamento pós-reforço (RPT) treinados em dados de domínio misto e avaliados em benchmarks intimamente alinhados com seus domínios de treinamento. Essas configurações introduzem fatores de confusão que obscurecem a verdadeira extensão da capacidade de generalização do RPT 3/7

Apresentamos uma estrutura de avaliação unificada que isola e testa a generalização entre domínios do RPT usando 16 benchmarks em matemática, código e raciocínio intensivo em conhecimento. Dentro desta estrutura, avaliamos várias combinações de modelos base e estratégias RPT 4/7

📌 Principais conclusões do Tribunal: 1️⃣ Os ganhos de RPT são principalmente no domínio 2️⃣ Matemática e código generalizam bem entre si 3️⃣ As competências estruturadas não são transferidas para tarefas não estruturadas e com utilização intensiva de conhecimentos 5/7

A conclusão? O RPT é poderoso, mas limitado Ele melhora o desempenho onde é treinado, mas generaliza mal 6/7

Este trabalho é conjunto com @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai, e @jasoncbenn 7/7

2,64K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável