Învățarea prin întărire permite LLM-urilor să învingă oamenii în competițiile de programare/matematică și a condus la progrese recente (seria o de la OpenAI, Claude 4 de la Anthropic) RL va permite generalizarea largă în același mod în care o face pretraining-ul? Nu cu tehnicile actuale 🧵 1/7
🔗Link-uri aici și firul de mai jos: Hârtie: Medie: Substivă: 2/7
Evaluarea existentă pentru LLM-uri evaluează în primul rând performanța în domeniu, folosind modele de întărire post-antrenament (RPT) antrenate pe date de domenii mixte și evaluate pe repere strâns aliniate cu domeniile lor de antrenament. Aceste configurații introduc factori de confuzie care ascund adevărata amploare a capacității de generalizare a RPT 3/7
Introducem un cadru de evaluare unificat care izolează și testează generalizarea pe mai multe domenii a RPT folosind 16 repere în matematică, cod și raționament intensiv de cunoștințe. În acest cadru, evaluăm diverse combinații de modele de bază și strategii RPT 4/7
📌 Principalele noastre constatări: 1️⃣ Câștigurile RPT sunt în mare parte în domeniu 2️⃣ Matematica și codul se generalizează bine între ele 3️⃣ Abilitățile structurate nu se transferă către sarcini nestructurate, cu cunoștințe intensive 5/7
Concluzia? RPT este puternic, dar îngust Îmbunătățește performanța acolo unde este antrenat, dar generalizează slab 6/7
Această lucrare este comună cu @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai și @jasoncbenn 7/7
2,64K