Una ciliegia delle dimensioni di un melone sopra :)
Shane Gu
Shane Gu11 lug, 06:22
2023: presso OpenAI, alcune figure chiave nel post-addestramento erano contrarie alla scalabilità del RL. 2022: Eric/Yuhuai (ora xAI) ha scritto STaR e io ho scritto "LLM può auto-migliorarsi". Era chiaro che il RL su segnali puliti sblocca il prossimo salto. La divisione pre/post-addestramento potrebbe essere stata un grande rallentamento per l'IA.
13,61K