Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
hier is wat gratis alpha:
als we RL te lang doen na de pretraining, zullen we zeker parameters overschrijven en dingen beginnen te vergeten
in het originele instructGPT-paper mengde hun beste model RLHF met pretraining-gradiënten om precies dit modelafdriftprobleem te vermijden
toch doet niemand dit meer. zeker, het is een specifieke instantiatie (gradiëntmixing) van een breder idee (vergeten vermijden), maar het lijkt een sterk over het hoofd geziene denkrichting te zijn terwijl we steeds meer stappen van RL doen
bijvoorbeeld zie het recente ProRL-paper. ze doen nu meer dan 1000 stappen van GRPO met een niet-triviale leersnelheid en geen straf voor het afwijken van het originele model. de circuits die binnen het model tijdens de pretraining zijn opgebouwd, beginnen zeker te vervagen. en als dat niet zo is, zullen ze dat doen na 10k of 100k RL-stappen
ik vermoed dat dit idee uiteindelijk weer zal terugkomen; ze doen dit waarschijnlijk al in de grote laboratoria



54,81K
Boven
Positie
Favorieten