Här är lite gratis alfa: om vi gör RL för länge efter förträningen kommer vi säkert att skriva över parametrar och börja glömma saker i det ursprungliga instructGPT-dokumentet blandade deras bästa modell RLHF med förträningsgradienter för att undvika just detta problem med modelldrift Ändå är det ingen som gör det längre. Visst, det är en särskild instansiering (gradientblandning) av en bredare idé (att undvika att glömma) men verkar vara en mycket förbisedd tankegång när vi gör fler och fler steg i RL se till exempel den senaste ProRL-rapporten. de gör över 1000 steg av GRPO nu med en icke-trivial inlärningshastighet och inget straff för att avvika från den ursprungliga modellen. Kretsarna som byggs in i modellen under förträningen börjar säkert förfalla. och om inte, kommer de att göra det efter 10k eller 100k RL-steg Jag misstänker att den här idén kommer att komma tillbaka så småningom; De gör förmodligen redan detta på de stora labben
54,79K