1/ Presentamos el nuevo backend de RL Swarm: GenRL. Una biblioteca de aprendizaje por refuerzo modular construida para un entrenamiento distribuido y tolerante a fallos - ahora impulsando RL Swarm desde cero. 🧵
2/ Cada trabajador ejecuta su propia instancia de entorno, contribuye de manera asíncrona a un buffer de despliegue compartido y actualiza sus pesos de modelo de forma independiente, por lo que no se requiere un controlador central.
3/ GenRL permite que RL Swarm funcione con cualquier entorno, descrito intuitivamente a través del código. Este lanzamiento incorpora Reasoning Gym listo para usar, lo que brinda acceso a >100 entornos creados por la comunidad sin necesidad de configuración adicional.
4/ Novedades: – Backend GenRL modular – Superficie de configuración ampliada – Imagen de Docker preconstruida para un fácil despliegue – Entorno Reasoning Gym para mejorar las capacidades de razonamiento del modelo – Nuevo enjambre de múltiples tareas
5/ Ahora en vivo en la testnet de Gensyn. Puedes ejecutar RL-Swarm con GenRL hoy. Código completo + configuración:
52,18K