2023: na OpenAI, algumas figuras-chave na pós-formação eram contra a escalabilidade do RL. 2022: Eric/Yuhuai (agora xAI) escreveu o STaR e eu escrevi "LLM pode autoaperfeiçoar-se". Estava claro que o RL em sinais limpos desbloqueia o próximo salto. A divisão pré/pós-formação pode ter sido uma grande desaceleração para a IA.
34,76K