有没有人尝试过使用强化学习来重写推理模型的提示,以进一步改善输出? 我想应该有人尝试过,这感觉很明显,但如果没有,我想试试。 如果你知道这里有任何现有的工作,请告诉我,这样我就不会重复别人已经做过的事情!
我的意思是: - 采用一个已经训练好的、冻结的推理模型(即通过API的o4-mini) - 添加一个较小的LLM,它接受一个提示,并对其进行重写,以改善冻结模型的表现 - 更新较小LLM的权重,保持较大LLM冻结 希望这个小LLM能够比人类更好地“引导”冻结的大模型的链条推理,从而提高性能。
@corbtt 让我想起了 @brendanh0gan 的这项工作…… Brendan,进展如何?看起来和我在这里想的很相似。
Brendan Hogan
Brendan Hogan7月3日 08:26
big models are great agents but often too big, closed, or delicate to fine-tune idea: train a small model to craft context for a frozen big model, score the big model's outputs, use that as reward for the small one grpo for context tuning. more below
17.48K