一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

將 Qwen3 1.7B 後訓練為 DeepResearch 模型的食譜小型模型深入思考意味著什麼？認識 Lucy，一個基於 @willccbb 的驗證者的後訓練 Qwen3-1.7B 作為 DeepResearch 模型。主要基於規則的獎勵： - 答案正確性我們檢查最終回應是否字面上包含真實答案。這種子字串匹配成本低，避免了調用更大的 LLM 進行判斷。 - 訪問/搜索比率如果代理訪問的頁面數至少與其發出的搜索查詢數相等，則它將獲得 ((visit_search_ratio - 1) / 4) ** 0.25。如果它搜索的次數多於訪問的次數，則得分為 -0.5。格式 / 反獎勵駭客獎勵： - 工具執行成功每個無錯誤返回的 API 調用都計算在內。獎勵為 (successful_calls * unique_tools_used) / total_call_attempts。 - 思考效率以 70 個標記為中心的偏斜正態懲罰，抑制在工具調用之間無休止的思考鏈，同時仍然允許足夠的標記進行計劃。這就是 Qwen3 1.7B 學會搜索、訪問和綜合信息的方式。小型模型也能進行深入研究！

39.07K