Hóa ra, > GRPO đang thực hiện trung bình cộng --> tỷ lệ theo token > GSPO đang thực hiện trung bình hình học --> tỷ lệ theo chuỗi Kiểm tra blog nếu bạn không có thời gian để đọc.
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR18:35 25 thg 7
Tự hào giới thiệu Chính sách Tối ưu hóa Chuỗi Nhóm (GSPO), thuật toán RL ổn định, hiệu quả và hiệu suất cao của chúng tôi, hỗ trợ đào tạo RL quy mô lớn cho các mô hình Qwen3 mới nhất (Instruct, Coder, Thinking) 🚀 📄
64,01K