Uma cereja do tamanho de um melão no topo :)
Shane Gu
Shane Gu11 de jul., 06:22
2023: na OpenAI, alguns figos importantes no pós-treinamento foram contra o dimensionamento de RL. 2022: Eric/Yuhuai (agora xAI) escreveu STaR e eu escrevi "LLM pode se auto-aperfeiçoar". Ficou claro que RL em sinais limpos desbloqueia o próximo salto. A divisão pré/pós-treinamento pode ter sido uma grande desaceleração da IA.
13,63K