¿Ha logrado OpenAI el RL de episodios muy largos con este modelo experimental? Captura de pantalla del artículo de @natolambert sobre "Qué viene después con el aprendizaje por refuerzo". Nathan dice en este artículo: donde los métodos actuales están generando de 10K a 100K tokens por respuesta para problemas de matemáticas o código durante el entrenamiento, el tipo de problemas que la gente discute aplicar al entrenamiento de RL de próxima generación serían de 1M a 100M tokens por respuesta. Esto implica envolver múltiples llamadas de inferencia, indicaciones e interacciones con un entorno dentro de un episodio contra el cual se actualiza la política. ¡Quizás este avance sea una combinación de ambos: RL de episodios muy largos y escalado de TTC a 1M-100M tokens por respuesta!
Alexander Wei
Alexander Wei19 jul, 15:50
5/N Además del resultado en sí, estoy emocionado por nuestro enfoque: alcanzamos este nivel de capacidad no a través de una metodología específica y estrecha, sino rompiendo nuevos caminos en el aprendizaje por refuerzo de propósito general y la escalabilidad del cómputo en el momento de la prueba.
8,88K