1/ Presentamos el nuevo backend de RL Swarm: GenRL. Una biblioteca modular de aprendizaje por refuerzo creada para un entrenamiento distribuido y tolerante a fallos, que ahora impulsa RL Swarm desde cero. 🧵
2/ Cada trabajador ejecuta su propia instancia de entorno, contribuye de forma asincrónica a un búfer de implementación compartido y actualiza sus ponderaciones de modelo de forma independiente, por lo que no se requiere un controlador central.
3/ GenRL permite a RL Swarm trabajar con cualquier entorno, descrito de forma intuitiva a través del código. Este lanzamiento incorpora Reasoning Gym listo para usar, lo que brinda acceso a >100 entornos creados por la comunidad sin necesidad de configuración adicional.
4/ Novedades: – Backend GenRL modular – Superficie de configuración ampliada – Imagen de Docker prediseñada para una fácil implementación – Entorno de gimnasio de razonamiento para mejorar las capacidades de razonamiento del modelo – Nuevo enjambre multitarea
5/ Ahora en vivo en la red de prueba de Gensyn. Puedes ejecutar RL-Swarm con GenRL hoy mismo. Código completo + configuración:
52.15K