Her er noen gratis alfa: hvis vi gjør RL for lenge etter fortrening, vil vi sikkert overskrive parametere og begynne å glemme ting i det originale instructGPT-papiret blandet deres beste modell RLHF med forhåndstreningsgradienter for å unngå akkurat dette modelldriftsproblemet Likevel er det ingen som gjør dette lenger. jada, det er en bestemt instansiering (gradientblanding) av en bredere idé (unngå å glemme), men virker som en sterkt oversett tankegang når vi gjør flere og flere trinn av RL se for eksempel den nylige ProRL-artikkelen. de gjør over 1000 trinn med GRPO nå med en ikke-triviell læringshastighet og ingen straff for å avvike fra den opprinnelige modellen. Kretsene som er bygget inne i modellen under førtrening begynner sikkert å forfalle. og hvis ikke, vil de gjøre det etter 10k eller 100k RL-trinn Jeg mistenker at denne ideen vil komme tilbake etter hvert; De gjør sannsynligvis allerede dette på de store laboratoriene
51,15K