نفخر بتقديم تحسين سياسة تسلسل المجموعة (GSPO) ، خوارزمية RL المستقرة والفعالة وعالية الأداء التي تدعم تدريب RL على نطاق واسع لأحدث طرازات Qwen3 (التوجيه ، المبرمج ، التفكير) 🚀 📄
‏‎138.86‏K