Versterkend Leren van Grote Taalmodellen, Lente 2025 (UCLA) Geweldige set nieuwe lezingen over versterkend leren van LLM's. Behandelt een breed scala aan onderwerpen gerelateerd aan RLxLLM's, zoals basisprincipes/fundamenten, rekentijd bij testen, RLHF en RL met verifieerbare beloningen (RLVR).
69,54K