اتضح، يقوم > GRPO بإجراء المتوسط الحسابي - > تحجيم مستوى الرمز المميز > يقوم GSPO بإجراء المتوسط الهندسي - > القياس على مستوى التسلسل تحقق من المدونة إذا لم يكن لديك وقت للقراءة.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR‏25 يوليو، 18:35
نفخر بتقديم تحسين سياسة تسلسل المجموعة (GSPO) ، خوارزمية RL المستقرة والفعالة وعالية الأداء التي تدعم تدريب RL على نطاق واسع لأحدث طرازات Qwen3 (التوجيه ، المبرمج ، التفكير) 🚀 📄
‏‎64.01‏K