Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
aqui está um pouco de alpha grátis:
se fizermos RL por muito tempo após o pré-treinamento, certamente iremos sobrescrever parâmetros e começar a esquecer coisas
no artigo original do instructGPT, o melhor modelo deles misturou RLHF com gradientes de pré-treinamento para evitar exatamente este problema de desvio do modelo
no entanto, ninguém está fazendo isso mais. claro, é uma particular instância (mistura de gradientes) de uma ideia mais ampla (evitar o esquecimento), mas parece uma linha de pensamento grandemente negligenciada à medida que fazemos mais e mais passos de RL
por exemplo, veja o recente artigo ProRL. eles estão fazendo mais de 1000 passos de GRPO agora com uma taxa de aprendizado não trivial e sem penalidade por se desviar do modelo original. os circuitos construídos dentro do modelo durante o pré-treinamento certamente estão começando a decair. e se não, eles irão após 10k ou 100k passos de RL
suspeito que essa ideia voltará eventualmente; eles provavelmente já estão fazendo isso nos grandes laboratórios



54,8K
Top
Classificação
Favoritos