1/ Introductie van de nieuwe backend van RL Swarm: GenRL. Een modulaire reinforcement learning-bibliotheek gebouwd voor gedistribueerde, fouttolerante training - nu RL Swarm van de grond af aan aandrijvend. 🧵
2/ Elke werknemer draait zijn eigen omgevingsinstantie, draagt asynchroon bij aan een gedeelde rollout-buffer en werkt zijn modelgewichten onafhankelijk bij, zodat er geen centrale controller nodig is.
3/ GenRL stelt RL Swarm in staat om met elke omgeving te werken, intuïtief beschreven door middel van code. Deze lancering bevat Reasoning Gym out-of-the-box, waardoor toegang wordt gegeven tot >100 door de gemeenschap gemaakte omgevingen zonder dat er extra configuratie nodig is.
4/ Wat is nieuw: – Modulaire GenRL backend – Uitgebreide configuratieoppervlakte – Voorgebouwde Docker-afbeelding voor eenvoudige implementatie – Redeneringsgymomgeving om de redeneringscapaciteiten van het model te verbeteren – Nieuwe multi-task zwerm
5/ Nu live op het Gensyn testnet. Je kunt vandaag RL-Swarm met GenRL draaien. Volledige code + setup:
52,16K