word wakker schat, er is een nieuwe RL-algoritme uitgebracht
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR25 jul, 18:35
Trots om de Group Sequence Policy Optimization (GSPO) voor te stellen, ons stabiele, efficiënte en krachtige RL-algoritme dat de grootschalige RL-training van de nieuwste Qwen3-modellen (Instruct, Coder, Thinking) aandrijft 🚀 📄
695