Uczenie przez wzmocnienie dużych modeli językowych, wiosna 2025 (UCLA) Świetny zestaw nowych wykładów na temat uczenia przez wzmocnienie LLM-ów. Obejmuje szeroki zakres tematów związanych z RLxLLMs, takich jak podstawy/fundamenty, obliczenia w czasie testu, RLHF oraz RL z weryfikowalnymi nagrodami (RLVR).
69,53K