Хто-небудь пробував RL переписувати підказки для моделей міркувань для подальшого поліпшення результатів? Я припускаю, що так, це здається досить очевидним, але якщо ні, я хочу спробувати. Якщо ви знаєте про будь-яку існуючу роботу тут, будь ласка, lmk, щоб я не переробляв те, що люди вже зробили!
Під цим я маю на увазі: - Візьміть вже навчену, заморожену модель міркування (наприклад, o4-mini через API) - Додайте менший LLM, який приймає запит і переписує його, щоб покращити роботу замороженої моделі - Оновіть меншу вагу LLM, тримайте більший LLM замороженим Є надія, що маленький LLM навчиться «керувати» CoT замороженої більшої моделі краще, ніж людина, підвищуючи продуктивність.
@corbtt нагадав мені цю роботу @brendanh0gan... Брендан, як це було? Здається, це дуже схоже на те, про що я тут думаю.
Brendan Hogan
Brendan Hogan3 лип., 08:26
Великі моделі є чудовими агентами, але часто вони занадто великі, закриті або делікатні для точного налаштування Ідея: Навчіть маленьку модель створювати контекст для замороженої великої моделі, оцінювати результати великої моделі, використовувати це як винагороду за маленьку GRPO для налаштування контексту. Детальніше нижче
17,5K