Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hier ist etwas kostenlose Alpha:
Wenn wir RL zu lange nach dem Pretraining durchführen, werden wir sicherlich Parameter überschreiben und anfangen, Dinge zu vergessen.
Im ursprünglichen InstructGPT-Papier mischte ihr bestes Modell RLHF mit Pretraining-Gradienten, um genau dieses Modelldrift-Problem zu vermeiden.
Dennoch macht das heutzutage niemand mehr. Sicher, es ist eine bestimmte Instanziierung (Gradientenmischung) einer breiteren Idee (Vergessen zu vermeiden), aber es scheint eine stark übersehene Denkweise zu sein, während wir immer mehr Schritte von RL durchführen.
Zum Beispiel siehe das aktuelle ProRL-Papier. Sie machen jetzt über 1000 Schritte von GRPO mit einer nicht trivialen Lernrate und ohne Strafe für Abweichungen vom ursprünglichen Modell. Die Schaltkreise, die während des Pretrainings im Modell aufgebaut wurden, beginnen sicherlich zu verfallen. Und wenn nicht, werden sie nach 10k oder 100k RL-Schritten verfallen.
Ich vermute, diese Idee wird irgendwann wieder aufkommen; sie machen das wahrscheinlich bereits in den großen Laboren.



54,79K
Top
Ranking
Favoriten