Recette pour post-entraîner Qwen3 1.7B en un modèle DeepResearch Que signifie pour quelque chose de petit de penser profondément ? Rencontrez Lucy, un Qwen3-1.7B post-entrainé en tant que modèle DeepResearch basé sur les vérificateurs de @willccbb. Règles de récompense basées sur des règles principales : - Exactitude des réponses Nous vérifions si la réponse finale contient littéralement la réponse de vérité. Cette correspondance de sous-chaîne est peu coûteuse et évite d'appeler un LLM plus grand pour juger. - Ratio de visites/recherches Si l'agent visite au moins autant de pages qu'il émet de requêtes de recherche, il reçoit ((visit_search_ratio - 1) / 4) ** 0.25. S'il recherche plus qu'il ne visite, le score est de -0.5. Format / Récompenses anti-hacking de récompense : - Succès de l'exécution des outils Chaque appel API qui retourne sans erreur compte. La récompense est (successful_calls * unique_tools_used) / total_call_attempts. - Efficacité de la pensée Une pénalité skew-normale centrée à 70 tokens décourage les chaînes de pensée sans fin entre les appels d'outils tout en permettant encore suffisamment de tokens pour la planification. C'est ainsi que Qwen3 1.7B a appris à rechercher, visiter et synthétiser des informations. Les petits modèles peuvent aussi faire des recherches approfondies !
39,07K