Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Iată câteva versiuni alfa gratuite:
dacă facem RL prea mult timp după preantrenament, cu siguranță vom suprascrie parametrii și vom începe să uităm lucruri
în lucrarea originală instructGPT, cel mai bun model al lor a amestecat RLHF cu gradiente de pre-antrenament pentru a evita exact această problemă de derivă a modelului
Cu toate acestea, nimeni nu mai face asta. sigur, este o instanțiere particulară (amestecarea gradientului) a unei idei mai largi (evitarea uitării), dar pare o linie de gândire mult trecută cu vederea pe măsură ce facem din ce în ce mai mulți pași ai RL
de exemplu, vezi lucrarea recentă ProRL. ei fac peste 1000 de pași de GRPO acum cu o rată de învățare netrivială și fără penalizare pentru abaterea de la modelul original. Circuitele construite în interiorul modelului în timpul pre-antrenamentului încep cu siguranță să se descompună. și dacă nu, o vor face după pași de 10k sau 100k RL
Bănuiesc că această idee va reveni în cele din urmă; Probabil că fac deja asta la marile laboratoare



55,25K
Limită superioară
Clasament
Favorite