在过去的两个月里,我没有发很多推文,因为我花时间学习和实验各种强化学习技术。很高兴很快能分享一些正在进行的工作: 1. GRPO训练的计算最优配方 2. 增强LLM交互隐私的强化学习工具 这些实验的结果很有希望👀
3.79K