Una cereza del tamaño de un melón en la parte superior :)
Shane Gu
Shane Gu11 jul, 06:22
2023: en OpenAI, algunas figuras clave en el post-entrenamiento estaban en contra de escalar RL. 2022: Eric/Yuhuai (ahora xAI) escribieron STaR y yo escribí "LLM puede superarse a sí mismo". Estaba claro que RL en señales limpias desbloquea el siguiente salto. La división entre antes y después del entrenamiento puede haber sido una gran desaceleración para la IA.
13.63K