Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zde je několik bezplatných alfaverzí:
pokud budeme RL po předtréninku dělat příliš dlouho, určitě přepíšeme parametry a začneme na věci zapomínat
v původním článku instructGPT jejich nejlepší model smíchal RLHF s předtrénovacími gradienty, aby se vyhnul přesně tomuto problému s driftem modelu
A přesto to už nikdo nedělá. jistě, je to jedna konkrétní instance (gradientní míchání) širší myšlenky (vyhýbání se zapomínání), ale zdá se to jako velmi přehlížená linie myšlení, jak děláme další a další kroky RL
viz například nedávný článek ProRL. nyní dělají více než 1000 kroků GRPO s netriviální rychlostí učení a bez penalizace za odchýlení se od původního modelu. Obvody zabudované uvnitř modelu během předtréninku se jistě začínají rozpadat. a pokud ne, budou po 10k nebo 100k RL krocích
Mám podezření, že se tato myšlenka nakonec vrátí; Pravděpodobně to již dělají ve velkých laboratořích



51,15K
Top
Hodnocení
Oblíbené