Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/
Przedstawiamy nowy backend RL Swarm: GenRL.
Modularna biblioteka uczenia przez wzmocnienie stworzona do rozproszonego, odpornego na błędy treningu - teraz napędza RL Swarm od podstaw. 🧵
2/
Każdy pracownik uruchamia własną instancję środowiska, asynchronicznie przyczynia się do wspólnego bufora rollout i niezależnie aktualizuje swoje wagi modelu, więc nie jest wymagany żaden centralny kontroler.
3/
GenRL pozwala RL Swarm pracować z dowolnym środowiskiem, opisanym intuicyjnie za pomocą kodu.
Ta premiera zawiera Reasoning Gym od razu po wyjęciu z pudełka, dając dostęp do >100 środowisk stworzonych przez społeczność bez konieczności dodatkowej konfiguracji.
4/
Co nowego:
– Modułowy backend GenRL
– Rozszerzona powierzchnia konfiguracji
– Wstępnie zbudowany obraz Docker do łatwego wdrożenia
– Środowisko Reasoning Gym w celu zwiększenia możliwości rozumowania modelu
– Nowy wielozadaniowy rój
5/
Teraz na żywo w sieci testowej Gensyn.
Możesz uruchomić RL-Swarm z GenRL już dziś.
Pełny kod + konfiguracja:
52,16K
Najlepsze
Ranking
Ulubione