Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

вот немного бесплатной информации: если мы будем проводить RL слишком долго после предварительного обучения, мы, безусловно, перезапишем параметры и начнем забывать вещи. в оригинальной статье instructGPT их лучшая модель смешивала RLHF с градиентами предварительного обучения, чтобы избежать именно этой проблемы дрейфа модели. тем не менее, никто больше этого не делает. конечно, это одна конкретная реализация (смешивание градиентов) более широкой идеи (избежание забвения), но это кажется сильно упущенной линией мышления, поскольку мы делаем все больше шагов RL. например, посмотрите на недавнюю статью ProRL. они сейчас делают более 1000 шагов GRPO с нетривиальной скоростью обучения и без штрафа за отклонение от оригинальной модели. цепи, построенные внутри модели во время предварительного обучения, безусловно, начинают разрушаться. и если нет, то они разрушатся после 10k или 100k шагов RL. я подозреваю, что эта идея в конечном итоге вернется; вероятно, они уже делают это в крупных лабораториях.

55,25K

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные