ecco un po' di alpha gratuito: se facciamo RL per troppo tempo dopo il pretraining, sicuramente sovrascriveremo i parametri e inizieremo a dimenticare cose nel documento originale di instructGPT, il loro miglior modello mescolava RLHF con i gradienti di pretraining per evitare esattamente questo problema di deriva del modello eppure nessuno lo sta facendo più. certo, è una particolare istanza (mescolanza di gradienti) di un'idea più ampia (evitare di dimenticare), ma sembra essere una linea di pensiero grandemente trascurata mentre facciamo sempre più passi di RL per esempio, vedi il recente documento ProRL. ora stanno facendo oltre 1000 passi di GRPO con un tasso di apprendimento non banale e senza penalità per deviare dal modello originale. i circuiti costruiti all'interno del modello durante il pretraining stanno sicuramente iniziando a decadere. e se non lo fanno, lo faranno dopo 10k o 100k passi di RL sospetto che questa idea tornerà alla ribalta; probabilmente lo stanno già facendo nei grandi laboratori
54,79K