Receta para posentrenar Qwen3 1.7B en un modelo de DeepResearch ¿Qué significa que algo pequeño piense profundamente? Conozca a Lucy, un Qwen3-1.7B post-entrenado como modelo de DeepResearch basado en los verificadores de @willccbb. Recompensas primarias basadas en reglas: - Corrección de la respuesta Verificamos si la respuesta final contiene literalmente la respuesta de la verdad fundamental. Esta coincidencia de subcadenas es barata y evita llamar a un juez de LLM más grande. - Ratio visita/búsqueda Si el agente visita al menos tantas páginas como consultas de búsqueda, recibe ((visit_search_ratio - 1) / 4) ** 0,25. Si busca más de lo que visita, la puntuación es -0,5. Formato / Recompensas contra la piratería de recompensas: - Éxito en la ejecución de la herramienta Cada llamada a la API que se devuelve sin un error cuenta. La recompensa es (successful_calls * unique_tools_used) / total_call_attempts. - Eficiencia de pensamiento Una penalización sesgada normal centrada en 70 fichas desalienta la interminable cadena de pensamiento entre la llamada de herramientas y al mismo tiempo permite suficientes fichas para la planificación. Así es como Qwen3 1.7B aprendió a buscar, visitar y sintetizar información. ¡Los modelos pequeños también pueden hacer una investigación profunda!
39.16K