Una cereza del tamaño de un melón encima :)
Shane Gu
Shane Gu11 jul, 06:22
2023: en OpenAI, algunas figuras clave en el post-entrenamiento estaban en contra de escalar RL. 2022: Eric/Yuhuai (ahora xAI) escribió STaR y yo escribí "LLM puede auto-mejorarse". Era evidente que RL en señales limpias desbloquea el siguiente salto. La división pre/post-entrenamiento puede haber sido una gran desaceleración para la IA.
13,63K