Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Här är lite gratis alfa:
om vi gör RL för länge efter förträningen kommer vi säkert att skriva över parametrar och börja glömma saker
i det ursprungliga instructGPT-dokumentet blandade deras bästa modell RLHF med förträningsgradienter för att undvika just detta problem med modelldrift
Ändå är det ingen som gör det längre. Visst, det är en särskild instansiering (gradientblandning) av en bredare idé (att undvika att glömma) men verkar vara en mycket förbisedd tankegång när vi gör fler och fler steg i RL
se till exempel den senaste ProRL-rapporten. de gör över 1000 steg av GRPO nu med en icke-trivial inlärningshastighet och inget straff för att avvika från den ursprungliga modellen. Kretsarna som byggs in i modellen under förträningen börjar säkert förfalla. och om inte, kommer de att göra det efter 10k eller 100k RL-steg
Jag misstänker att den här idén kommer att komma tillbaka så småningom; De gör förmodligen redan detta på de stora labben



54,79K
Topp
Rankning
Favoriter