DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Sättet att tolka det är att efter efterträningen är dina vikter ungefär lika långt från alla uppgifter den såg under förträningen (modellen har sett alla uppgifter så de har dragit den mot sig). Så allt denna metod gör är att störa vikterna och se vilka störningar som för nätverket närmare uppgiftsspecifika vikter. Det är som riktigt billig lora Detta hänger också ihop med observationen att efterträning inte tillför kunskap, utan helt enkelt mejslar förträningsfördelningen

Störande vikter är egentligen analogt med slumpmässiga utrullningar vid hög temperatur. Jag tror att detta kan vara iterativt (som GRPO) perturbvikter med stor radie -> väljer bättre presterande -> fortsätter att minska radien detta *bör* öka uppgiftens noggrannhet @yule_gan har du provat detta?

86

Topp

Rankning

Favoriter