将 Qwen3 1.7B 后训练为 DeepResearch 模型的配方 小型模型深度思考意味着什么?认识 Lucy,一个基于 @willccbb 的验证者后训练的 Qwen3-1.7B DeepResearch 模型。 主要基于规则的奖励: - 答案正确性 我们检查最终响应是否字面上包含真实答案。这个子字符串匹配成本低,避免调用更大的 LLM 进行判断。 - 访问/搜索比率 如果代理访问的页面数量至少与其发出的搜索查询数量相同,则它将获得 ((visit_search_ratio - 1) / 4) ** 0.25 的奖励。如果它搜索的次数多于访问的次数,得分为 -0.5。 格式 / 反奖励黑客奖励: - 工具执行成功 每个没有错误返回的 API 调用都算作成功。奖励为 (successful_calls * unique_tools_used) / total_call_attempts。 - 思考效率 一个以 70 个 token 为中心的偏斜正态惩罚,旨在阻止在调用工具之间进行无尽的思考链,同时仍然允许足够的 token 用于规划。 这就是 Qwen3 1.7B 学会搜索、访问和综合信息的方式。小型模型也能进行深度研究!
39.07K