DApp Store | Centrum Web3 pro události a hry

Populární témata

Dosáhla OpenAI s tímto experimentálním modelem RL s velmi dlouhými epizodami? Snímek obrazovky z článku @natolambert na téma "Co bude dál s posilovaným učením". Nathan v tomto článku říká: Tam, kde současné metody generují 10K-100K tokenů na odpověď pro matematické nebo kódové problémy během tréninku, druh problémů, o kterých lidé diskutují při aplikaci tréninku RL nové generace, by byl 1M-100M tokenů na odpověď. To zahrnuje zabalení několika inferenčních volání, výzev a interakcí s prostředím v rámci jedné epizody, na základě které jsou zásady aktualizovány. Možná je tento průlom kombinací obojího - velmi dlouhé epizody RL a škálování TTC na 1M-100M tokenů na odpověď!

8,5K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější