DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Hier ist etwas kostenlose Alpha: Wenn wir RL zu lange nach dem Pretraining durchführen, werden wir sicherlich Parameter überschreiben und anfangen, Dinge zu vergessen. Im ursprünglichen InstructGPT-Papier mischte ihr bestes Modell RLHF mit Pretraining-Gradienten, um genau dieses Modelldrift-Problem zu vermeiden. Dennoch macht das heutzutage niemand mehr. Sicher, es ist eine bestimmte Instanziierung (Gradientenmischung) einer breiteren Idee (Vergessen zu vermeiden), aber es scheint eine stark übersehene Denkweise zu sein, während wir immer mehr Schritte von RL durchführen. Zum Beispiel siehe das aktuelle ProRL-Papier. Sie machen jetzt über 1000 Schritte von GRPO mit einer nicht trivialen Lernrate und ohne Strafe für Abweichungen vom ursprünglichen Modell. Die Schaltkreise, die während des Pretrainings im Modell aufgebaut wurden, beginnen sicherlich zu verfallen. Und wenn nicht, werden sie nach 10k oder 100k RL-Schritten verfallen. Ich vermute, diese Idee wird irgendwann wieder aufkommen; sie machen das wahrscheinlich bereits in den großen Laboren.

54,79K

Top

Ranking

Favoriten

Onchain-Trends

Im Trend auf X

Aktuelle Top-Finanzierungen

Am bemerkenswertesten