热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
有没有人尝试过使用强化学习来重写推理模型的提示,以进一步改善输出?
我想应该有人尝试过,这感觉很明显,但如果没有,我想试试。
如果你知道这里有任何现有的工作,请告诉我,这样我就不会重复别人已经做过的事情!
我的意思是:
- 采用一个已经训练好的、冻结的推理模型(即通过API的o4-mini)
- 添加一个较小的LLM,它接受一个提示,并对其进行重写,以改善冻结模型的表现
- 更新较小LLM的权重,保持较大LLM冻结
希望这个小LLM能够比人类更好地“引导”冻结的大模型的链条推理,从而提高性能。
@corbtt 让我想起了 @brendanh0gan 的这项工作……
Brendan,进展如何?看起来和我在这里想的很相似。

7月3日 08:26
big models are great agents but often too big, closed, or delicate to fine-tune
idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one
grpo for context tuning. more below

17.48K
热门
排行
收藏