Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Receta para posentrenar Qwen3 1.7B en un modelo de DeepResearch
¿Qué significa que algo pequeño piense profundamente? Conozca a Lucy, un Qwen3-1.7B post-entrenado como modelo de DeepResearch basado en los verificadores de @willccbb.
Recompensas primarias basadas en reglas:
- Corrección de la respuesta
Verificamos si la respuesta final contiene literalmente la respuesta de la verdad fundamental. Esta coincidencia de subcadenas es barata y evita llamar a un juez de LLM más grande.
- Ratio visita/búsqueda
Si el agente visita al menos tantas páginas como consultas de búsqueda, recibe ((visit_search_ratio - 1) / 4) ** 0,25. Si busca más de lo que visita, la puntuación es -0,5.
Formato / Recompensas contra la piratería de recompensas:
- Éxito en la ejecución de la herramienta
Cada llamada a la API que se devuelve sin un error cuenta. La recompensa es (successful_calls * unique_tools_used) / total_call_attempts.
- Eficiencia de pensamiento
Una penalización sesgada normal centrada en 70 fichas desalienta la interminable cadena de pensamiento entre la llamada de herramientas y al mismo tiempo permite suficientes fichas para la planificación.
Así es como Qwen3 1.7B aprendió a buscar, visitar y sintetizar información. ¡Los modelos pequeños también pueden hacer una investigación profunda!
39.16K
Populares
Ranking
Favoritas