1/ Einführung in den neuen Backend von RL Swarm: GenRL. Eine modulare Bibliothek für verstärkendes Lernen, die für verteiltes, fehlertolerantes Training entwickelt wurde - jetzt treibt sie RL Swarm von Grund auf an. 🧵
2/ Jeder Arbeiter führt seine eigene Umgebungsinstanz aus, trägt asynchron zu einem gemeinsamen Rollout-Puffer bei und aktualisiert seine Modellgewichte unabhängig, sodass kein zentraler Controller erforderlich ist.
3/ GenRL ermöglicht es RL Swarm, mit jeder Umgebung zu arbeiten, die intuitiv durch Code beschrieben wird. Diese Einführung beinhaltet Reasoning Gym out-of-the-box und bietet Zugriff auf >100 von der Community erstellte Umgebungen, ohne dass eine zusätzliche Konfiguration erforderlich ist.
4/ Neuigkeiten: – Modularer GenRL-Backend – Erweiterte Konfigurationsoberfläche – Vorgefertigtes Docker-Image für einfache Bereitstellung – Reasoning Gym-Umgebung zur Verbesserung der Modell-Denkfähigkeiten – Neuer Multi-Task-Schwarm
5/ Jetzt live im Gensyn-Testnetz. Sie können RL-Swarm heute mit GenRL ausführen. Voller Code + Einrichtung:
52,16K