Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Ha logrado OpenAI el RL de episodios muy largos con este modelo experimental?
Captura de pantalla del artículo de @natolambert sobre "Qué viene después con el aprendizaje por refuerzo".
Nathan dice en este artículo: donde los métodos actuales están generando de 10K a 100K tokens por respuesta para problemas de matemáticas o código durante el entrenamiento, el tipo de problemas que la gente discute aplicar al entrenamiento de RL de próxima generación serían de 1M a 100M tokens por respuesta. Esto implica envolver múltiples llamadas de inferencia, indicaciones e interacciones con un entorno dentro de un episodio contra el cual se actualiza la política.
¡Quizás este avance sea una combinación de ambos: RL de episodios muy largos y escalado de TTC a 1M-100M tokens por respuesta!


19 jul, 15:50
5/N Además del resultado en sí, estoy emocionado por nuestro enfoque: alcanzamos este nivel de capacidad no a través de una metodología específica y estrecha, sino rompiendo nuevos caminos en el aprendizaje por refuerzo de propósito general y la escalabilidad del cómputo en el momento de la prueba.
8,88K
Parte superior
Clasificación
Favoritos