Aqui estão alguns alfas gratuitos: se fizermos RL por muito tempo após o pré-treinamento, certamente substituiremos os parâmetros e começaremos a esquecer as coisas no artigo original do instructGPT, seu melhor modelo misturou RLHF com gradientes de pré-treinamento para evitar exatamente esse problema de desvio do modelo No entanto, ninguém está mais fazendo isso. claro, é uma instanciação particular (mistura de gradiente) de uma ideia mais ampla (evitando o esquecimento), mas parece uma linha de pensamento muito negligenciada à medida que fazemos mais e mais etapas de RL por exemplo, veja o recente artigo do ProRL. eles estão fazendo mais de 1000 etapas do GRPO agora com uma taxa de aprendizado não trivial e sem penalidade por se desviar do modelo original. Os circuitos construídos dentro do modelo durante o pré-treinamento certamente estão começando a se deteriorar. e se não, eles o farão após 10k ou 100k RL passos Suspeito que essa ideia voltará eventualmente; Eles provavelmente já estão fazendo isso nos grandes laboratórios
54,81K