1/ Vi introduserer RL Swarms nye backend: GenRL. Et modulært forsterkende læringsbibliotek bygget for distribuert, feiltolerant opplæring – som nå driver RL Swarm fra grunnen av. 🧵
2/ Hver arbeider kjører sin egen miljøforekomst, bidrar asynkront til en delt utrullingsbuffer og oppdaterer modellvektene uavhengig, slik at det ikke kreves noen sentral kontroller.
3/ GenRL lar RL Swarm fungere med alle miljøer, beskrevet intuitivt gjennom kode. Denne lanseringen inkluderer Reasoning Gym rett ut av esken, og gir tilgang til >100 fellesskapsskapte miljøer uten behov for ekstra konfigurasjon.
4/ Noe nytt: – Modulær GenRL-backend – Utvidet konfigurasjonsflate – Forhåndsbygd Docker-avbildning for enkel distribusjon – Resonnerende treningsstudio for å forbedre modellens resonneringsevner – Ny multitask-sverm
5/ Nå live på Gensyn-testnettet. Du kan kjøre RL-Swarm med GenRL i dag. Full kode + oppsett:
52,15K