Oppskrift for å ettertrene Qwen3 1.7B til en DeepResearch-modell Hva betyr det for noe lite å tenke dypt? Møt Lucy, en ettertrent Qwen3-1.7B som en DeepResearch-modell basert på @willccbb s verifikatorer. Primære regelbaserte belønninger: - Svarets riktighet Vi sjekker om det endelige svaret bokstavelig talt inneholder det grunnleggende sannhetssvaret. Denne understrengskampen er billig og unngår å ringe en større LLM-dommer. - Besøk/søk-forhold Hvis agenten besøker minst like mange sider som den sender ut søk, mottar den ((visit_search_ratio - 1) / 4) ** 0,25. Hvis den søker mer enn den besøker, er poengsummen -0,5. Format / Anti Reward-Hacking-belønninger: - Vellykket utførelse av verktøy Hvert API-kall som returnerer uten feil, teller. Belønningen er (successful_calls * unique_tools_used) / total_call_attempts. - Tenke effektivitet En skjev normal straff sentrert på 70 tokens motvirker endeløs tankekjede mellom verktøykall, samtidig som det tillater nok tokens for planlegging. Slik lærte Qwen3 1.7B å søke, besøke og syntetisere informasjon. Små modeller kan også gjøre dyp forskning!
39,06K