Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aqui estão alguns alfas gratuitos:
se fizermos RL por muito tempo após o pré-treinamento, certamente substituiremos os parâmetros e começaremos a esquecer as coisas
no artigo original do instructGPT, seu melhor modelo misturou RLHF com gradientes de pré-treinamento para evitar exatamente esse problema de desvio do modelo
No entanto, ninguém está mais fazendo isso. claro, é uma instanciação particular (mistura de gradiente) de uma ideia mais ampla (evitando o esquecimento), mas parece uma linha de pensamento muito negligenciada à medida que fazemos mais e mais etapas de RL
por exemplo, veja o recente artigo do ProRL. eles estão fazendo mais de 1000 etapas do GRPO agora com uma taxa de aprendizado não trivial e sem penalidade por se desviar do modelo original. Os circuitos construídos dentro do modelo durante o pré-treinamento certamente estão começando a se deteriorar. e se não, eles o farão após 10k ou 100k RL passos
Suspeito que essa ideia voltará eventualmente; Eles provavelmente já estão fazendo isso nos grandes laboratórios



54,81K
Melhores
Classificação
Favoritos