大規模言語モデルの強化学習, Spring 2025(UCLA) LLMの強化学習に関する新しい講義が充実しており、基本/基礎、テスト時間計算、RLHF、検証可能な報酬を持つRLVR(RLVR)など、RLxLLMに関連する幅広いトピックをカバーしています。
69.54K