aqui está um pouco de alpha grátis: se fizermos RL por muito tempo após o pré-treinamento, certamente iremos sobrescrever parâmetros e começar a esquecer coisas no artigo original do instructGPT, o melhor modelo deles misturou RLHF com gradientes de pré-treinamento para evitar exatamente este problema de desvio do modelo no entanto, ninguém está fazendo isso mais. claro, é uma particular instância (mistura de gradientes) de uma ideia mais ampla (evitar o esquecimento), mas parece uma linha de pensamento grandemente negligenciada à medida que fazemos mais e mais passos de RL por exemplo, veja o recente artigo ProRL. eles estão fazendo mais de 1000 passos de GRPO agora com uma taxa de aprendizado não trivial e sem penalidade por se desviar do modelo original. os circuitos construídos dentro do modelo durante o pré-treinamento certamente estão começando a decair. e se não, eles irão após 10k ou 100k passos de RL suspeito que essa ideia voltará eventualmente; eles provavelmente já estão fazendo isso nos grandes laboratórios
54,8K