hier is wat gratis alpha: als we RL te lang doen na de pretraining, zullen we zeker parameters overschrijven en dingen beginnen te vergeten in het originele instructGPT-paper mengde hun beste model RLHF met pretraining-gradiënten om precies dit modelafdriftprobleem te vermijden toch doet niemand dit meer. zeker, het is een specifieke instantiatie (gradiëntmixing) van een breder idee (vergeten vermijden), maar het lijkt een sterk over het hoofd geziene denkrichting te zijn terwijl we steeds meer stappen van RL doen bijvoorbeeld zie het recente ProRL-paper. ze doen nu meer dan 1000 stappen van GRPO met een niet-triviale leersnelheid en geen straf voor het afwijken van het originele model. de circuits die binnen het model tijdens de pretraining zijn opgebouwd, beginnen zeker te vervagen. en als dat niet zo is, zullen ze dat doen na 10k of 100k RL-stappen ik vermoed dat dit idee uiteindelijk weer zal terugkomen; ze doen dit waarschijnlijk al in de grote laboratoria
54,81K