Receita para treinar o Qwen3 1.7B em um modelo DeepResearch O que significa algo pequeno pensar profundamente? Conheça Lucy, um Qwen3‑1.7B pós-treinado como um modelo DeepResearch baseado nos verificadores de @willccbb. Recompensas Primárias Baseadas em Regras: - Correção da resposta Verificamos se a resposta final contém literalmente a resposta correta. Essa correspondência de substring é barata e evita chamar um juiz LLM maior. - Razão de visita/pesquisa Se o agente visita pelo menos tantas páginas quanto emite consultas de pesquisa, ele recebe ((visit_search_ratio - 1) / 4) ** 0.25. Se ele pesquisa mais do que visita, a pontuação é -0.5. Formato / Recompensas Anti-Hacking: - Sucesso na execução de ferramentas Cada chamada de API que retorna sem erro conta. A recompensa é (successful_calls * unique_tools_used) / total_call_attempts. - Eficiência de pensamento Uma penalidade assimétrica centrada em 70 tokens desencoraja uma cadeia interminável de pensamentos entre chamadas de ferramentas, enquanto ainda permite tokens suficientes para planejamento. É assim que o Qwen3 1.7B aprendeu a pesquisar, visitar e sintetizar informações. Modelos pequenos também podem fazer pesquisas profundas!
39,07K