trezește-te gagica nou RL algo a căzut
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 iul., 18:35
Suntem mândri să vă prezentăm Group Sequence Policy Optimization (GSPO), algoritmul nostru RL stabil, eficient și performant care alimentează antrenarea RL la scară largă a celor mai recente modele Qwen3 (Instruct, Coder, Thinking) 🚀 📄
700