大型语言模型的强化学习,2025年春季(加州大学洛杉矶分校) 一系列关于大型语言模型强化学习的新讲座。涵盖了与RLxLLMs相关的广泛主题,如基础知识、测试时计算、RLHF和具有可验证奖励的RL(RLVR)。
69.54K