En nuestro artículo de 2020, definimos la eficiencia de despliegue en el algoritmo de RL. La conclusión es que el rendimiento está más limitado por la frecuencia de los despliegues que por las muestras. El aprendizaje en línea es la clave, y es exactamente cómo se popularizó el "post-entrenamiento" para los LLMs. El domingo es 💯 #schmidhubering