¿OpenAI ha logrado RL de episodios muy largos con este modelo experimental? Captura de pantalla del artículo de @natolambert sobre "Qué viene después con el aprendizaje por refuerzo". Nathan dice en este artículo: Donde los métodos actuales generan tokens de 10K-100K por respuesta para problemas matemáticos o de código durante el entrenamiento, el tipo de problemas a los que las personas discuten la aplicación del entrenamiento de RL de próxima generación serían de 1M-100M tokens por respuesta. Esto implica envolver varias llamadas de inferencia, mensajes e interacciones con un entorno dentro de un episodio en el que se actualiza la política. Tal vez este avance sea una combinación de ambos: RL de episodios muy largos y escalando TTC a 1M-100M tokens por respuesta!
Alexander Wei
Alexander Wei19 jul, 15:50
5/N Además del resultado en sí, estoy entusiasmado con nuestro enfoque: alcanzamos este nivel de capacidad no a través de una metodología estrecha y específica para cada tarea, sino abriendo nuevos caminos en el aprendizaje por refuerzo de propósito general y el escalado de computación en tiempo de prueba.
8.5K