2023: en OpenAI, algunas figuras clave en el post-entrenamiento estaban en contra de escalar RL. 2022: Eric/Yuhuai (ahora xAI) escribió STaR y yo escribí "LLM puede auto-mejorarse". Era evidente que RL en señales limpias desbloquea el siguiente salto. La división pre/post-entrenamiento puede haber sido una gran desaceleración para la IA.
34,75K