Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

oto trochę darmowego alfa: jeśli będziemy stosować RL zbyt długo po wstępnym treningu, z pewnością nadpiszemy parametry i zaczniemy zapominać rzeczy w oryginalnym artykule instructGPT ich najlepszy model łączył RLHF z gradientami wstępnego treningu, aby uniknąć dokładnie tego problemu dryfu modelu jednak nikt już tego nie robi. pewnie, to jedna konkretna instancja (mieszanie gradientów) szerszej idei (unikanie zapominania), ale wydaje się, że to bardzo niedoceniana linia myślenia, gdy wykonujemy coraz więcej kroków RL na przykład zobaczcie niedawny artykuł ProRL. teraz wykonują ponad 1000 kroków GRPO z niebagatelną szybkością uczenia się i bez kary za odchylenie od oryginalnego modelu. obwody zbudowane wewnątrz modelu podczas wstępnego treningu z pewnością zaczynają się psuć. a jeśli nie, to będą po 10k lub 100k krokach RL podejrzewam, że ta idea w końcu powróci; prawdopodobnie już to robią w dużych laboratoriach

54,8K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi