1/ Przedstawiamy nowy backend RL Swarm: GenRL. Modularna biblioteka uczenia przez wzmocnienie stworzona do rozproszonego, odpornego na błędy treningu - teraz napędza RL Swarm od podstaw. 🧵
2/ Każdy pracownik uruchamia własną instancję środowiska, asynchronicznie przyczynia się do wspólnego bufora rollout i niezależnie aktualizuje swoje wagi modelu, więc nie jest wymagany żaden centralny kontroler.
3/ GenRL pozwala RL Swarm pracować z dowolnym środowiskiem, opisanym intuicyjnie za pomocą kodu. Ta premiera zawiera Reasoning Gym od razu po wyjęciu z pudełka, dając dostęp do >100 środowisk stworzonych przez społeczność bez konieczności dodatkowej konfiguracji.
4/ Co nowego: – Modułowy backend GenRL – Rozszerzona powierzchnia konfiguracji – Wstępnie zbudowany obraz Docker do łatwego wdrożenia – Środowisko Reasoning Gym w celu zwiększenia możliwości rozumowania modelu – Nowy wielozadaniowy rój
5/ Teraz na żywo w sieci testowej Gensyn. Możesz uruchomić RL-Swarm z GenRL już dziś. Pełny kod + konfiguracja:
52,16K