2023: en OpenAI, algunas figuras clave en el post-entrenamiento estaban en contra de escalar RL. 2022: Eric/Yuhuai (ahora xAI) escribieron STaR y yo escribí "LLM puede superarse a sí mismo". Estaba claro que RL en señales limpias desbloquea el siguiente salto. La división entre antes y después del entrenamiento puede haber sido una gran desaceleración para la IA.
34.75K