Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dosáhla OpenAI s tímto experimentálním modelem RL s velmi dlouhými epizodami?
Snímek obrazovky z článku @natolambert na téma "Co bude dál s posilovaným učením".
Nathan v tomto článku říká: Tam, kde současné metody generují 10K-100K tokenů na odpověď pro matematické nebo kódové problémy během tréninku, druh problémů, o kterých lidé diskutují při aplikaci tréninku RL nové generace, by byl 1M-100M tokenů na odpověď. To zahrnuje zabalení několika inferenčních volání, výzev a interakcí s prostředím v rámci jedné epizody, na základě které jsou zásady aktualizovány.
Možná je tento průlom kombinací obojího - velmi dlouhé epizody RL a škálování TTC na 1M-100M tokenů na odpověď!


19. 7. 15:50
5/N Kromě samotného výsledku jsem nadšený z našeho přístupu: Této úrovně schopností nedosahujeme prostřednictvím úzké metodologie specifické pro daný úkol, ale průlomem na novou půdu v obecném zpětnovazebním učení a škálování výpočtů v době testu.
8,5K
Top
Hodnocení
Oblíbené