Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sättet att tolka det är att efter efterträningen är dina vikter ungefär lika långt från alla uppgifter den såg under förträningen (modellen har sett alla uppgifter så de har dragit den mot sig). Så allt denna metod gör är att störa vikterna och se vilka störningar som för nätverket närmare uppgiftsspecifika vikter. Det är som riktigt billig lora
Detta hänger också ihop med observationen att efterträning inte tillför kunskap, utan helt enkelt mejslar förträningsfördelningen

13 mars 23:41
Att helt enkelt lägga till Gaussiskt brus i LLM:er (ett steg – inga iterationer, ingen inlärningshastighet, inga gradienter) och integrera dem kan uppnå prestanda som är jämförbar med eller till och med bättre än standard GRPO/PPO inom matematik, kodning, skrivande och kemiuppgifter. Vi kallar denna algoritm RandOpt.
För att verifiera att detta inte är begränsat till specifika modeller testade vi det på Qwen, Llama, OLMo3 och VLM.
Vad ligger bakom detta? Vi finner att i det Gaussiska sökområdet kring förtränade LLM:er är olika arbetsexperter tätt fördelade — ett regim vi kallar Neural Thickets.
Papper:
Kod:
Webbplats:

Störande vikter är egentligen analogt med slumpmässiga utrullningar vid hög temperatur. Jag tror att detta kan vara iterativt (som GRPO)
perturbvikter med stor radie -> väljer bättre presterande -> fortsätter att minska radien
detta *bör* öka uppgiftens noggrannhet
@yule_gan har du provat detta?
86
Topp
Rankning
Favoriter
