Aprendizado por reforço de grandes modelos de linguagem, primavera de 2025 (UCLA) Ótimo conjunto de novas palestras sobre aprendizado por reforço de LLMs. Abrange uma ampla gama de tópicos relacionados a RLxLLMs, como noções básicas / fundamentos, computação em tempo de teste, RLHF e RL com recompensas verificáveis (RLVR).
69,52K