1/ Vă prezentăm noul backend al RL Swarm: GenRL. O bibliotecă modulară de învățare prin întărire construită pentru instruire distribuită, tolerantă la erori - acum alimentează RL Swarm de la zero. 🧵
2/ Fiecare lucrător își rulează propria instanță de mediu, contribuie asincron la un buffer de lansare partajat și își actualizează ponderile modelului în mod independent, astfel încât nu este necesar un controler central.
3/ GenRL permite RL Swarm să lucreze cu orice mediu, descris intuitiv prin cod. Această lansare încorporează Reasoning Gym out-of-the-box, oferind acces la >100 de medii create de comunitate, fără a fi necesară o configurare suplimentară.
4/ Ce mai e nou: – Backend modular GenRL – Suprafață de configurare extinsă – Imagine Docker preconstruită pentru implementare ușoară – Mediul de raționament al sălii de sport pentru a îmbunătăți capacitățile de raționament ale modelului – Nou roi multi-tasking
5/ Acum live pe rețeaua de testare Gensyn. Puteți rula RL-Swarm cu GenRL astăzi. Cod complet + configurare:
52,17K