dậy đi em, thuật toán RL mới đã ra mắt
Chujie Zheng ✈️ ICLR
Chujie Zheng ✈️ ICLR18:35 25 thg 7
Tự hào giới thiệu Chính sách Tối ưu hóa Chuỗi Nhóm (GSPO), thuật toán RL ổn định, hiệu quả và hiệu suất cao của chúng tôi, hỗ trợ đào tạo RL quy mô lớn cho các mô hình Qwen3 mới nhất (Instruct, Coder, Thinking) 🚀 📄
688