將 Qwen3 1.7B 後訓練為 DeepResearch 模型的食譜 小型模型深入思考意味著什麼?認識 Lucy,一個基於 @willccbb 的驗證者的後訓練 Qwen3-1.7B 作為 DeepResearch 模型。 主要基於規則的獎勵: - 答案正確性 我們檢查最終回應是否字面上包含真實答案。這種子字串匹配成本低,避免了調用更大的 LLM 進行判斷。 - 訪問/搜索比率 如果代理訪問的頁面數至少與其發出的搜索查詢數相等,則它將獲得 ((visit_search_ratio - 1) / 4) ** 0.25。如果它搜索的次數多於訪問的次數,則得分為 -0.5。 格式 / 反獎勵駭客獎勵: - 工具執行成功 每個無錯誤返回的 API 調用都計算在內。獎勵為 (successful_calls * unique_tools_used) / total_call_attempts。 - 思考效率 以 70 個標記為中心的偏斜正態懲罰,抑制在工具調用之間無休止的思考鏈,同時仍然允許足夠的標記進行計劃。 這就是 Qwen3 1.7B 學會搜索、訪問和綜合信息的方式。小型模型也能進行深入研究!
39.07K