Iată câteva versiuni alfa gratuite: dacă facem RL prea mult timp după preantrenament, cu siguranță vom suprascrie parametrii și vom începe să uităm lucruri în lucrarea originală instructGPT, cel mai bun model al lor a amestecat RLHF cu gradiente de pre-antrenament pentru a evita exact această problemă de derivă a modelului Cu toate acestea, nimeni nu mai face asta. sigur, este o instanțiere particulară (amestecarea gradientului) a unei idei mai largi (evitarea uitării), dar pare o linie de gândire mult trecută cu vederea pe măsură ce facem din ce în ce mai mulți pași ai RL de exemplu, vezi lucrarea recentă ProRL. ei fac peste 1000 de pași de GRPO acum cu o rată de învățare netrivială și fără penalizare pentru abaterea de la modelul original. Circuitele construite în interiorul modelului în timpul pre-antrenamentului încep cu siguranță să se descompună. și dacă nu, o vor face după pași de 10k sau 100k RL Bănuiesc că această idee va reveni în cele din urmă; Probabil că fac deja asta la marile laboratoare
55,25K