Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
oto trochę darmowego alfa:
jeśli będziemy stosować RL zbyt długo po wstępnym treningu, z pewnością nadpiszemy parametry i zaczniemy zapominać rzeczy
w oryginalnym artykule instructGPT ich najlepszy model łączył RLHF z gradientami wstępnego treningu, aby uniknąć dokładnie tego problemu dryfu modelu
jednak nikt już tego nie robi. pewnie, to jedna konkretna instancja (mieszanie gradientów) szerszej idei (unikanie zapominania), ale wydaje się, że to bardzo niedoceniana linia myślenia, gdy wykonujemy coraz więcej kroków RL
na przykład zobaczcie niedawny artykuł ProRL. teraz wykonują ponad 1000 kroków GRPO z niebagatelną szybkością uczenia się i bez kary za odchylenie od oryginalnego modelu. obwody zbudowane wewnątrz modelu podczas wstępnego treningu z pewnością zaczynają się psuć. a jeśli nie, to będą po 10k lub 100k krokach RL
podejrzewam, że ta idea w końcu powróci; prawdopodobnie już to robią w dużych laboratoriach



54,8K
Najlepsze
Ranking
Ulubione