1/ Présentation du nouveau backend de RL Swarm : GenRL. Une bibliothèque de renforcement modulaire conçue pour un entraînement distribué et tolérant aux pannes - alimentant désormais RL Swarm de A à Z. 🧵
2/ Chaque travailleur exécute sa propre instance d'environnement, contribue de manière asynchrone à un tampon de déploiement partagé et met à jour ses poids de modèle de manière indépendante, donc aucun contrôleur central n'est requis.
3/ GenRL permet à RL Swarm de fonctionner avec n’importe quel environnement, décrit intuitivement par le code. Ce lancement intègre Reasoning Gym prêt à l’emploi, donnant accès à > 100 environnements créés par la communauté sans configuration supplémentaire requise.
4/ Quoi de neuf : – Backend GenRL modulaire – Surface de configuration étendue – Image Docker préconstruite pour un déploiement facile – Environnement Reasoning Gym pour améliorer les capacités de raisonnement du modèle – Nouvelle ruche multi-tâches
5/ Maintenant en direct sur le testnet Gensyn. Vous pouvez exécuter RL-Swarm avec GenRL aujourd'hui. Code complet + configuration :
52,16K