Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ось деякі з безкоштовних альфа-версій:
якщо ми будемо робити RL занадто довго після попередньої підготовки, ми обов'язково перезаписаємо параметри і почнемо забувати речі
в оригінальному документі InstructGPT, їхня найкраща модель змішала RLHF з градієнтами попереднього навчання, щоб уникнути саме цієї проблеми з дрейфом моделі
Але цього вже ніхто не робить. Звичайно, це одна особлива інстанціація (градієнтне змішування) більш широкої ідеї (уникнення забування), але здається сильно недооціненою лінією мислення, оскільки ми робимо все більше і більше кроків РЛ
наприклад, дивіться нещодавню статтю ProRL. Тепер вони роблять понад 1000 кроків GRPO з нетривіальною швидкістю навчання та без штрафу за відхилення від оригінальної моделі. Схеми, вбудовані всередині моделі під час передтренувальної підготовки, напевно починають руйнуватися. а якщо ні, то після 10 або 100 тисяч кроків RL
Я підозрюю, що ця ідея з часом повернеться; Вони, напевно, вже роблять це у великих лабораторіях



54,8K
Найкращі
Рейтинг
Вибране