Обучение с подкреплением больших языковых моделей, весна 2025 (UCLA) Отличный набор новых лекций по обучению с подкреплением LLM. Охватывает широкий спектр тем, связанных с RLxLLMs, таких как основы, вычисления во время тестирования, RLHF и RL с проверяемыми вознаграждениями (RLVR).
69,53K