DApp Store | Centrum Web3 pro události a hry

Populární témata

Zkoušel někdo RL přepsat výzvy pro modely uvažování, aby se dále zlepšily výstupy? Předpokládám, že ano, je to docela zřejmé, ale pokud ne, chci to zkusit. Pokud víte o nějaké existující práci zde, pls lmk, abych znovu nedělal něco, co už lidé udělali!

Tím myslím: - Vezměte si již natrénovaný, zamrzlý model uvažování (tj. o4-mini přes API) - Přidejte menší LLM, který převezme výzvu a přepíše ji, aby se zlepšil výkon zmrazeného modelu - Aktualizujte menší váhy LLM, větší LLM nechte zmrazené Doufá se, že malý LLM se naučí "řídit" CoT zmrazeného většího modelu lépe, než by to dokázal člověk, což zvýší výkon.

@corbtt mi připomněl tuto práci tím, že @brendanh0gan... Brendane, jak to šlo? Vypadá to dost podobně jako to, co si myslím tady.

7,21K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější