在過去兩個月中,我沒有發推文,因為我花時間學習和實驗各種強化學習技術。期待很快分享一些正在進行的工作: 1. GRPO 訓練的計算最佳配方 2. 增強 LLM 互動隱私的強化學習工具 這些實驗的結果令人鼓舞 👀
3.77K