有沒有人嘗試過使用強化學習來重寫推理模型的提示,以進一步改善輸出? 我假設應該有,這感覺相當明顯,但如果沒有,我想試試看。 如果你知道這方面的任何現有工作,請告訴我,這樣我就不會重複已經有人做過的事情!
我的意思是: - 使用一個已經訓練好的、固定的推理模型(即通過API的o4-mini) - 添加一個較小的LLM,該模型接收提示並重寫它,以改善固定模型的表現 - 更新較小LLM的權重,保持較大的LLM不變 希望這個小LLM能學會比人類更好地“引導”固定較大模型的CoT,從而提高性能。
@corbtt 讓我想起了 @brendanh0gan 的這項工作... Brendan,進展如何?看起來和我在這裡的想法非常相似。
Brendan Hogan
Brendan Hogan7月3日 08:26
大模型是很好的代理,但通常太大、太封閉或太脆弱而無法微調 想法:訓練一個小模型來為凍結的大模型製作上下文,對大模型的輸出進行評分,將其用作對小模型的獎勵 grpo 進行上下文優化。更多內容
17.57K