Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Förstärkningsinlärning gör det möjligt för LLM:er att slå människor i programmerings-/matematiktävlingar och har drivit de senaste framstegen (OpenAI:s o-serie, Anthropics Claude 4)
Kommer RL att möjliggöra bred generalisering på samma sätt som förträning gör? Inte med nuvarande teknik
🧵 Plats 1/7
🔗Länkar här och tråd nedan:
Papper:
Medium:
Understack:
2/7
Befintlig utvärdering för LLM:er bedömer i första hand prestanda inom domänen, med hjälp av RPT-modeller (reinforcement post-training) som tränats på data från blandade domäner och utvärderats på riktmärken som är nära anpassade till deras träningsdomäner. Dessa uppställningar introducerar förväxlingsfaktorer som döljer den verkliga omfattningen av RPT:s generaliseringsförmåga
3/7
Vi introducerar ett enhetligt utvärderingsramverk som isolerar och testar RPT:s generalisering över flera domäner med hjälp av 16 riktmärken för matematik, kod och kunskapsintensiva resonemang. Inom detta ramverk utvärderar vi olika kombinationer av basmodeller och RPT-strategier
4/7

📌 Våra viktigaste resultat:
1️⃣ RPT-vinster är mestadels inom domänen
2️⃣ Matematik och kod generaliserar väl till varandra
3️⃣ Strukturerade färdigheter överförs inte till ostrukturerade, kunskapsintensiva uppgifter
5/7

Att ta med sig? RPT är kraftfull men smal
Det förbättrar prestandan där det tränas, men generaliserar dåligt
6/7
Detta arbete är gemensamt med @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai och @jasoncbenn
7/7
2,64K
Topp
Rankning
Favoriter