Receta para post-entrenar Qwen3 1.7B en un modelo DeepResearch ¿Qué significa que algo pequeño piense profundamente? Conoce a Lucy, un Qwen3-1.7B post-entrenado como un modelo DeepResearch basado en los verificadores de @willccbb. Reglas Primarias Basadas en Recompensas: - Corrección de respuestas Verificamos si la respuesta final contiene literalmente la respuesta correcta. Esta coincidencia de subcadenas es económica y evita llamar a un juez LLM más grande. - Ratio de visitas/búsquedas Si el agente visita al menos tantas páginas como emite consultas de búsqueda, recibe ((visit_search_ratio - 1) / 4) ** 0.25. Si busca más de lo que visita, la puntuación es -0.5. Formato / Recompensas Anti-Hacking de Recompensas: - Éxito en la ejecución de herramientas Cada llamada a la API que devuelve sin error cuenta. La recompensa es (successful_calls * unique_tools_used) / total_call_attempts. - Eficiencia de pensamiento Una penalización sesgada-normal centrada en 70 tokens desincentiva una cadena de pensamiento interminable entre llamadas a herramientas, mientras que aún permite suficientes tokens para la planificación. Así es como Qwen3 1.7B aprendió a buscar, visitar y sintetizar información. ¡Los modelos pequeños también pueden hacer investigaciones profundas!
39,08K