Zkoušel někdo RL přepsat výzvy pro modely uvažování, aby se dále zlepšily výstupy? Předpokládám, že ano, je to docela zřejmé, ale pokud ne, chci to zkusit. Pokud víte o nějaké existující práci zde, pls lmk, abych znovu nedělal něco, co už lidé udělali!
Tím myslím: - Vezměte si již natrénovaný, zamrzlý model uvažování (tj. o4-mini přes API) - Přidejte menší LLM, který převezme výzvu a přepíše ji, aby se zlepšil výkon zmrazeného modelu - Aktualizujte menší váhy LLM, větší LLM nechte zmrazené Doufá se, že malý LLM se naučí "řídit" CoT zmrazeného většího modelu lépe, než by to dokázal člověk, což zvýší výkon.
@corbtt mi připomněl tuto práci tím, že @brendanh0gan... Brendane, jak to šlo? Vypadá to dost podobně jako to, co si myslím tady.
Brendan Hogan
Brendan Hogan3. 7. 08:26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
7,21K