Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Her er noen gratis alfa:
hvis vi gjør RL for lenge etter fortrening, vil vi sikkert overskrive parametere og begynne å glemme ting
i det originale instructGPT-papiret blandet deres beste modell RLHF med forhåndstreningsgradienter for å unngå akkurat dette modelldriftsproblemet
Likevel er det ingen som gjør dette lenger. jada, det er en bestemt instansiering (gradientblanding) av en bredere idé (unngå å glemme), men virker som en sterkt oversett tankegang når vi gjør flere og flere trinn av RL
se for eksempel den nylige ProRL-artikkelen. de gjør over 1000 trinn med GRPO nå med en ikke-triviell læringshastighet og ingen straff for å avvike fra den opprinnelige modellen. Kretsene som er bygget inne i modellen under førtrening begynner sikkert å forfalle. og hvis ikke, vil de gjøre det etter 10k eller 100k RL-trinn
Jeg mistenker at denne ideen vil komme tilbake etter hvert; De gjør sannsynligvis allerede dette på de store laboratoriene



51,15K
Topp
Rangering
Favoritter