大型語言模型的強化學習,2025年春季(UCLA) 一系列關於大型語言模型強化學習的新講座。涵蓋了與RLxLLMs相關的廣泛主題,如基礎知識、測試時計算、RLHF和具有可驗證獎勵的RL(RLVR)。
69.53K