تقديم SAPO ، أحدث أبحاثنا خوارزمية ما بعد التدريب اللامركزية بالكامل لاختبار RL للاستخدام على العقد غير المتجانسة التي يديرها أي شخص في أي مكان ، دون تنسيق مركزي تحقق SAPO مكاسب تراكمية تصل إلى 94٪ على فانيليا GRPO في تجاربنا