2023: bij OpenAI waren enkele belangrijke figuren na de training tegen het opschalen van RL. 2022: Eric/Yuhuai (nu xAI) schreef STaR en ik schreef "LLM kan zichzelf verbeteren". Het was duidelijk dat RL op schone signalen de volgende sprong ontgrendelt. De scheiding tussen pre/post-training kan een grote vertraging voor AI zijn geweest.
34,76K