Trong hai tháng qua, tôi không tweet nhiều vì đã dành thời gian để học hỏi và thử nghiệm với nhiều kỹ thuật RL khác nhau. Tôi rất hào hứng để chia sẻ một số công việc đang tiến hành sớm: 1. Công thức tối ưu tính toán cho việc đào tạo GRPO 2. Công cụ sử dụng RL để nâng cao quyền riêng tư trong các tương tác LLM Các thí nghiệm đã rất hứa hẹn 👀
3,77K