Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
вот немного бесплатной информации:
если мы будем проводить RL слишком долго после предварительного обучения, мы, безусловно, перезапишем параметры и начнем забывать вещи.
в оригинальной статье instructGPT их лучшая модель смешивала RLHF с градиентами предварительного обучения, чтобы избежать именно этой проблемы дрейфа модели.
тем не менее, никто больше этого не делает. конечно, это одна конкретная реализация (смешивание градиентов) более широкой идеи (избежание забвения), но это кажется сильно упущенной линией мышления, поскольку мы делаем все больше шагов RL.
например, посмотрите на недавнюю статью ProRL. они сейчас делают более 1000 шагов GRPO с нетривиальной скоростью обучения и без штрафа за отклонение от оригинальной модели. цепи, построенные внутри модели во время предварительного обучения, безусловно, начинают разрушаться. и если нет, то они разрушатся после 10k или 100k шагов RL.
я подозреваю, что эта идея в конечном итоге вернется; вероятно, они уже делают это в крупных лабораториях.



55,25K
Топ
Рейтинг
Избранное