Dosáhla OpenAI s tímto experimentálním modelem RL s velmi dlouhými epizodami? Snímek obrazovky z článku @natolambert na téma "Co bude dál s posilovaným učením". Nathan v tomto článku říká: Tam, kde současné metody generují 10K-100K tokenů na odpověď pro matematické nebo kódové problémy během tréninku, druh problémů, o kterých lidé diskutují při aplikaci tréninku RL nové generace, by byl 1M-100M tokenů na odpověď. To zahrnuje zabalení několika inferenčních volání, výzev a interakcí s prostředím v rámci jedné epizody, na základě které jsou zásady aktualizovány. Možná je tento průlom kombinací obojího - velmi dlouhé epizody RL a škálování TTC na 1M-100M tokenů na odpověď!
Alexander Wei
Alexander Wei19. 7. 15:50
5/N Kromě samotného výsledku jsem nadšený z našeho přístupu: Této úrovně schopností nedosahujeme prostřednictvím úzké metodologie specifické pro daný úkol, ale průlomem na novou půdu v obecném zpětnovazebním učení a škálování výpočtů v době testu.
8,5K