DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

¿Ha logrado OpenAI el RL de episodios muy largos con este modelo experimental? Captura de pantalla del artículo de @natolambert sobre "Qué viene después con el aprendizaje por refuerzo". Nathan dice en este artículo: donde los métodos actuales están generando de 10K a 100K tokens por respuesta para problemas de matemáticas o código durante el entrenamiento, el tipo de problemas que la gente discute aplicar al entrenamiento de RL de próxima generación serían de 1M a 100M tokens por respuesta. Esto implica envolver múltiples llamadas de inferencia, indicaciones e interacciones con un entorno dentro de un episodio contra el cual se actualiza la política. ¡Quizás este avance sea una combinación de ambos: RL de episodios muy largos y escalado de TTC a 1M-100M tokens por respuesta!

8,88K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado