Pembelajaran Penguatan Model Bahasa Besar, Musim Semi 2025 (UCLA) Serangkaian kuliah baru yang bagus tentang pembelajaran penguatan LLM. Mencakup berbagai topik yang terkait dengan RLxLLM seperti dasar-dasar/fondasi, komputasi waktu ujian, RLHF, dan RL dengan imbalan yang dapat diverifikasi (RLVR).
69,53K