熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
將 Qwen3 1.7B 後訓練為 DeepResearch 模型的食譜
小型模型深入思考意味著什麼?認識 Lucy,一個基於 @willccbb 的驗證者的後訓練 Qwen3-1.7B 作為 DeepResearch 模型。
主要基於規則的獎勵:
- 答案正確性
我們檢查最終回應是否字面上包含真實答案。這種子字串匹配成本低,避免了調用更大的 LLM 進行判斷。
- 訪問/搜索比率
如果代理訪問的頁面數至少與其發出的搜索查詢數相等,則它將獲得 ((visit_search_ratio - 1) / 4) ** 0.25。如果它搜索的次數多於訪問的次數,則得分為 -0.5。
格式 / 反獎勵駭客獎勵:
- 工具執行成功
每個無錯誤返回的 API 調用都計算在內。獎勵為 (successful_calls * unique_tools_used) / total_call_attempts。
- 思考效率
以 70 個標記為中心的偏斜正態懲罰,抑制在工具調用之間無休止的思考鏈,同時仍然允許足夠的標記進行計劃。
這就是 Qwen3 1.7B 學會搜索、訪問和綜合信息的方式。小型模型也能進行深入研究!
39.07K
熱門
排行
收藏