Förstärkningsinlärning gör det möjligt för LLM:er att slå människor i programmerings-/matematiktävlingar och har drivit de senaste framstegen (OpenAI:s o-serie, Anthropics Claude 4) Kommer RL att möjliggöra bred generalisering på samma sätt som förträning gör? Inte med nuvarande teknik 🧵 Plats 1/7
🔗Länkar här och tråd nedan: Papper: Medium: Understack: 2/7
Befintlig utvärdering för LLM:er bedömer i första hand prestanda inom domänen, med hjälp av RPT-modeller (reinforcement post-training) som tränats på data från blandade domäner och utvärderats på riktmärken som är nära anpassade till deras träningsdomäner. Dessa uppställningar introducerar förväxlingsfaktorer som döljer den verkliga omfattningen av RPT:s generaliseringsförmåga 3/7
Vi introducerar ett enhetligt utvärderingsramverk som isolerar och testar RPT:s generalisering över flera domäner med hjälp av 16 riktmärken för matematik, kod och kunskapsintensiva resonemang. Inom detta ramverk utvärderar vi olika kombinationer av basmodeller och RPT-strategier 4/7
📌 Våra viktigaste resultat: 1️⃣ RPT-vinster är mestadels inom domänen 2️⃣ Matematik och kod generaliserar väl till varandra 3️⃣ Strukturerade färdigheter överförs inte till ostrukturerade, kunskapsintensiva uppgifter 5/7
Att ta med sig? RPT är kraftfull men smal Det förbättrar prestandan där det tränas, men generaliserar dåligt 6/7
Detta arbete är gemensamt med @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai och @jasoncbenn 7/7
2,64K