1/ Memperkenalkan backend baru RL Swarm: GenRL. Pustaka pembelajaran penguatan modular yang dibangun untuk pelatihan yang terdistribusi dan toleran terhadap kesalahan - sekarang memberi daya pada RL Swarm dari bawah ke atas. 🧵
2/ Setiap pekerja menjalankan instans lingkungannya sendiri, berkontribusi secara asinkron ke buffer peluncuran bersama, dan memperbarui bobot modelnya secara independen, sehingga tidak diperlukan pengontrol pusat.
3/ GenRL memungkinkan RL Swarm untuk bekerja dengan lingkungan apa pun, dijelaskan secara intuitif melalui kode. Peluncuran ini menggabungkan Reasoning Gym out-of-the-box, memberikan akses ke >100 lingkungan yang dibuat komunitas tanpa memerlukan konfigurasi tambahan.
4/ Apa yang baru: – Backend GenRL Modular – Permukaan konfigurasi yang diperluas – Gambar Docker bawaan untuk penerapan yang mudah – Lingkungan Reasoning Gym untuk meningkatkan kemampuan penalaran model – Kawanan multi-tugas baru
5/ Sekarang siaran langsung di testnet Gensyn. Anda dapat menjalankan RL-Swarm dengan GenRL hari ini. Kode lengkap + pengaturan:
52,15K