Aprendizaje por refuerzo de grandes modelos de lenguaje, primavera de 2025 (UCLA) Conjunto excelente de nuevas conferencias sobre el aprendizaje por refuerzo de LLMs. Cubre una amplia gama de temas relacionados con RLxLLMs, como fundamentos/bases, computación en tiempo de prueba, RLHF y RL con recompensas verificables (RLVR).
69,54K