Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Învățarea prin întărire permite LLM-urilor să învingă oamenii în competițiile de programare/matematică și a condus la progrese recente (seria o de la OpenAI, Claude 4 de la Anthropic)
RL va permite generalizarea largă în același mod în care o face pretraining-ul? Nu cu tehnicile actuale
🧵 1/7
🔗Link-uri aici și firul de mai jos:
Hârtie:
Medie:
Substivă:
2/7
Evaluarea existentă pentru LLM-uri evaluează în primul rând performanța în domeniu, folosind modele de întărire post-antrenament (RPT) antrenate pe date de domenii mixte și evaluate pe repere strâns aliniate cu domeniile lor de antrenament. Aceste configurații introduc factori de confuzie care ascund adevărata amploare a capacității de generalizare a RPT
3/7
Introducem un cadru de evaluare unificat care izolează și testează generalizarea pe mai multe domenii a RPT folosind 16 repere în matematică, cod și raționament intensiv de cunoștințe. În acest cadru, evaluăm diverse combinații de modele de bază și strategii RPT
4/7

📌 Principalele noastre constatări:
1️⃣ Câștigurile RPT sunt în mare parte în domeniu
2️⃣ Matematica și codul se generalizează bine între ele
3️⃣ Abilitățile structurate nu se transferă către sarcini nestructurate, cu cunoștințe intensive
5/7

Concluzia? RPT este puternic, dar îngust
Îmbunătățește performanța acolo unde este antrenat, dar generalizează slab
6/7
Această lucrare este comună cu @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai și @jasoncbenn
7/7
2,64K
Limită superioară
Clasament
Favorite