Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
1/
Memperkenalkan backend baru RL Swarm: GenRL.
Pustaka pembelajaran penguatan modular yang dibangun untuk pelatihan yang terdistribusi dan toleran terhadap kesalahan - sekarang memberi daya pada RL Swarm dari bawah ke atas. 🧵
2/
Setiap pekerja menjalankan instans lingkungannya sendiri, berkontribusi secara asinkron ke buffer peluncuran bersama, dan memperbarui bobot modelnya secara independen, sehingga tidak diperlukan pengontrol pusat.
3/
GenRL memungkinkan RL Swarm untuk bekerja dengan lingkungan apa pun, dijelaskan secara intuitif melalui kode.
Peluncuran ini menggabungkan Reasoning Gym out-of-the-box, memberikan akses ke >100 lingkungan yang dibuat komunitas tanpa memerlukan konfigurasi tambahan.
4/
Apa yang baru:
– Backend GenRL Modular
– Permukaan konfigurasi yang diperluas
– Gambar Docker bawaan untuk penerapan yang mudah
– Lingkungan Reasoning Gym untuk meningkatkan kemampuan penalaran model
– Kawanan multi-tugas baru
5/
Sekarang siaran langsung di testnet Gensyn.
Anda dapat menjalankan RL-Swarm dengan GenRL hari ini.
Kode lengkap + pengaturan:
52,15K
Teratas
Peringkat
Favorit