Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ecco un po' di alpha gratuito:
se facciamo RL per troppo tempo dopo il pretraining, sicuramente sovrascriveremo i parametri e inizieremo a dimenticare cose
nel documento originale di instructGPT, il loro miglior modello mescolava RLHF con i gradienti di pretraining per evitare esattamente questo problema di deriva del modello
eppure nessuno lo sta facendo più. certo, è una particolare istanza (mescolanza di gradienti) di un'idea più ampia (evitare di dimenticare), ma sembra essere una linea di pensiero grandemente trascurata mentre facciamo sempre più passi di RL
per esempio, vedi il recente documento ProRL. ora stanno facendo oltre 1000 passi di GRPO con un tasso di apprendimento non banale e senza penalità per deviare dal modello originale. i circuiti costruiti all'interno del modello durante il pretraining stanno sicuramente iniziando a decadere. e se non lo fanno, lo faranno dopo 10k o 100k passi di RL
sospetto che questa idea tornerà alla ribalta; probabilmente lo stanno già facendo nei grandi laboratori



54,79K
Principali
Ranking
Preferiti