Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ось деякі з безкоштовних альфа-версій: якщо ми будемо робити RL занадто довго після попередньої підготовки, ми обов'язково перезаписаємо параметри і почнемо забувати речі в оригінальному документі InstructGPT, їхня найкраща модель змішала RLHF з градієнтами попереднього навчання, щоб уникнути саме цієї проблеми з дрейфом моделі Але цього вже ніхто не робить. Звичайно, це одна особлива інстанціація (градієнтне змішування) більш широкої ідеї (уникнення забування), але здається сильно недооціненою лінією мислення, оскільки ми робимо все більше і більше кроків РЛ наприклад, дивіться нещодавню статтю ProRL. Тепер вони роблять понад 1000 кроків GRPO з нетривіальною швидкістю навчання та без штрафу за відхилення від оригінальної моделі. Схеми, вбудовані всередині моделі під час передтренувальної підготовки, напевно починають руйнуватися. а якщо ні, то після 10 або 100 тисяч кроків RL Я підозрюю, що ця ідея з часом повернеться; Вони, напевно, вже роблять це у великих лабораторіях

54,8K

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги