Apprendimento per rinforzo di modelli di linguaggio di grandi dimensioni, Primavera 2025 (UCLA) Ottimo insieme di nuove lezioni sull'apprendimento per rinforzo degli LLM. Copre un'ampia gamma di argomenti relativi a RLxLLMs come basi/fondamenti, calcolo al momento del test, RLHF e RL con ricompense verificabili (RLVR).
69,53K