Een meloen-groot kersje bovenop :)
Shane Gu
Shane Gu11 jul, 06:22
2023: bij OpenAI waren enkele belangrijke figuren na de training tegen het opschalen van RL. 2022: Eric/Yuhuai (nu xAI) schreef STaR en ik schreef "LLM kan zichzelf verbeteren". Het was duidelijk dat RL op schone signalen de volgende sprong ontgrendelt. De scheiding tussen pre/post-training kan een grote vertraging voor AI zijn geweest.
13,63K