热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
将 Qwen3 1.7B 后训练为 DeepResearch 模型的配方
小型模型深度思考意味着什么?认识 Lucy,一个基于 @willccbb 的验证者后训练的 Qwen3-1.7B DeepResearch 模型。
主要基于规则的奖励:
- 答案正确性
我们检查最终响应是否字面上包含真实答案。这个子字符串匹配成本低,避免调用更大的 LLM 进行判断。
- 访问/搜索比率
如果代理访问的页面数量至少与其发出的搜索查询数量相同,则它将获得 ((visit_search_ratio - 1) / 4) ** 0.25 的奖励。如果它搜索的次数多于访问的次数,得分为 -0.5。
格式 / 反奖励黑客奖励:
- 工具执行成功
每个没有错误返回的 API 调用都算作成功。奖励为 (successful_calls * unique_tools_used) / total_call_attempts。
- 思考效率
一个以 70 个 token 为中心的偏斜正态惩罚,旨在阻止在调用工具之间进行无尽的思考链,同时仍然允许足够的 token 用于规划。
这就是 Qwen3 1.7B 学会搜索、访问和综合信息的方式。小型模型也能进行深度研究!
39.07K
热门
排行
收藏