2023: na OpenAI, alguns figos importantes no pós-treinamento foram contra o dimensionamento de RL. 2022: Eric/Yuhuai (agora xAI) escreveu STaR e eu escrevi "LLM pode se auto-aperfeiçoar". Ficou claro que RL em sinais limpos desbloqueia o próximo salto. A divisão pré/pós-treinamento pode ter sido uma grande desaceleração da IA.
34,75K