Wiśnia wielkości melona na wierzchu :)
Shane Gu
Shane Gu11 lip, 06:22
2023: w OpenAI niektórzy kluczowi ludzie po treningu byli przeciwni skalowaniu RL. 2022: Eric/Yuhuai (teraz xAI) napisali STaR, a ja napisałem "LLM może się samodoskonalić". Było jasne, że RL na czystych sygnałach odblokowuje następny skok. Podział na pre/post-trening mógł być dużym spowolnieniem dla AI.
13,62K