Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zkoušel někdo RL přepsat výzvy pro modely uvažování, aby se dále zlepšily výstupy?
Předpokládám, že ano, je to docela zřejmé, ale pokud ne, chci to zkusit.
Pokud víte o nějaké existující práci zde, pls lmk, abych znovu nedělal něco, co už lidé udělali!
Tím myslím:
- Vezměte si již natrénovaný, zamrzlý model uvažování (tj. o4-mini přes API)
- Přidejte menší LLM, který převezme výzvu a přepíše ji, aby se zlepšil výkon zmrazeného modelu
- Aktualizujte menší váhy LLM, větší LLM nechte zmrazené
Doufá se, že malý LLM se naučí "řídit" CoT zmrazeného většího modelu lépe, než by to dokázal člověk, což zvýší výkon.
@corbtt mi připomněl tuto práci tím, že @brendanh0gan...
Brendane, jak to šlo? Vypadá to dost podobně jako to, co si myslím tady.

3. 7. 08:26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

7,21K
Top
Hodnocení
Oblíbené