一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

有沒有人嘗試過使用強化學習來重寫推理模型的提示，以進一步改善輸出？我假設應該有，這感覺相當明顯，但如果沒有，我想試試看。如果你知道這方面的任何現有工作，請告訴我，這樣我就不會重複已經有人做過的事情！

我的意思是： - 使用一個已經訓練好的、固定的推理模型（即通過API的o4-mini） - 添加一個較小的LLM，該模型接收提示並重寫它，以改善固定模型的表現 - 更新較小LLM的權重，保持較大的LLM不變希望這個小LLM能學會比人類更好地“引導”固定較大模型的CoT，從而提高性能。

@corbtt 讓我想起了 @brendanh0gan 的這項工作... Brendan，進展如何？看起來和我在這裡的想法非常相似。

8.08K

熱門

排行

收藏

鏈上熱點

X 熱門榜

近期融資

最受認可