Receita para pós-treinar o Qwen3 1.7B em um modelo DeepResearch O que significa para algo pequeno pensar profundamente? Conheça Lucy, uma Qwen3-1.7B pós-treinada como um modelo DeepResearch baseado nos verificadores do @willccbb. Recompensas baseadas em regras primárias: - Responda corretamente Verificamos se a resposta final contém literalmente a resposta da verdade. Essa correspondência de substring é barata e evita chamar um juiz LLM maior. - Taxa de visita/pesquisa Se o agente visitar pelo menos tantas páginas quanto emitir consultas de pesquisa, ele receberá ((visit_search_ratio - 1) / 4) ** 0,25. Se pesquisar mais do que visitar, a pontuação é -0,5. Formato / Recompensas Anti Reward-Hacking: - Sucesso na execução da ferramenta Cada chamada de API que retorna sem um erro conta. A recompensa é (successful_calls * unique_tools_used) / total_call_attempts. - Eficiência de pensamento Uma penalidade normal distorcida centrada em 70 tokens desencoraja a cadeia de pensamento interminável entre as chamadas de ferramentas enquanto ainda permite tokens suficientes para o planejamento. Foi assim que o Qwen3 1.7B aprendeu a pesquisar, visitar e sintetizar informações. Modelos pequenos também podem fazer pesquisas profundas!
39,07K