استيقظ فاتنة جديدة RL algo سقطت
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR‏25 يوليو، 18:35
نفخر بتقديم تحسين سياسة تسلسل المجموعة (GSPO) ، خوارزمية RL المستقرة والفعالة وعالية الأداء التي تدعم تدريب RL على نطاق واسع لأحدث طرازات Qwen3 (التوجيه ، المبرمج ، التفكير) 🚀 📄
‏‎642‏