Aprendizaje por refuerzo de grandes modelos lingüísticos, primavera de 2025 (UCLA) Gran conjunto de nuevas conferencias sobre el aprendizaje por refuerzo de los LLM. Cubre una amplia gama de temas relacionados con los RLxLLM, como conceptos básicos / fundamentos, computación en tiempo de prueba, RLHF y RL con recompensas verificables (RLVR).
69.53K