Zde je několik bezplatných alfaverzí: pokud budeme RL po předtréninku dělat příliš dlouho, určitě přepíšeme parametry a začneme na věci zapomínat v původním článku instructGPT jejich nejlepší model smíchal RLHF s předtrénovacími gradienty, aby se vyhnul přesně tomuto problému s driftem modelu A přesto to už nikdo nedělá. jistě, je to jedna konkrétní instance (gradientní míchání) širší myšlenky (vyhýbání se zapomínání), ale zdá se to jako velmi přehlížená linie myšlení, jak děláme další a další kroky RL viz například nedávný článek ProRL. nyní dělají více než 1000 kroků GRPO s netriviální rychlostí učení a bez penalizace za odchýlení se od původního modelu. Obvody zabudované uvnitř modelu během předtréninku se jistě začínají rozpadat. a pokud ne, budou po 10k nebo 100k RL krocích Mám podezření, že se tato myšlenka nakonec vrátí; Pravděpodobně to již dělají ve velkých laboratořích
51,15K