Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
aquí hay un poco de información valiosa:
si hacemos RL durante demasiado tiempo después del preentrenamiento, seguramente sobrescribiremos parámetros y comenzaremos a olvidar cosas.
en el artículo original de instructGPT, su mejor modelo mezcló RLHF con gradientes de preentrenamiento para evitar exactamente este problema de deriva del modelo.
sin embargo, nadie está haciendo esto ya. claro, es una instancia particular (mezcla de gradientes) de una idea más amplia (evitar el olvido), pero parece ser una línea de pensamiento muy pasada por alto a medida que hacemos más y más pasos de RL.
por ejemplo, vean el reciente artículo de ProRL. ahora están haciendo más de 1000 pasos de GRPO con una tasa de aprendizaje no trivial y sin penalización por desviarse del modelo original. los circuitos construidos dentro del modelo durante el preentrenamiento seguramente están comenzando a decaer. y si no, lo harán después de 10k o 100k pasos de RL.
sospecho que esta idea volverá eventualmente; probablemente ya lo estén haciendo en los grandes laboratorios.



54,81K
Parte superior
Clasificación
Favoritos