Recept om Qwen3 1.7B post-train te zetten in een DeepResearch-model Wat betekent het voor iets kleins om diep na te denken? Maak kennis met Lucy, een post-getrainde Qwen3-1.7B als een DeepResearch-model gebaseerd op de verifiers van @willccbb. Primaire Regel-gebaseerde Beloningen: - Correctheid van antwoorden We controleren of de uiteindelijke reactie letterlijk het juiste antwoord bevat. Deze substring-match is goedkoop en voorkomt dat een grotere LLM als beoordelaar moet worden ingeschakeld. - Bezoek/zoekratio Als de agent minstens zoveel pagina's bezoekt als dat hij zoekopdrachten uitvoert, ontvangt hij ((bezoek_zoek_ratio - 1) / 4) ** 0.25. Als hij meer zoekt dan hij bezoekt, is de score -0.5. Formaat / Anti Beloning-Hacking Beloningen: - Succes van tooluitvoering Elke API-aanroep die zonder fout terugkomt, telt. De beloning is (succesvolle_oproepen * unieke_tools_gebruikt) / totale_oproep_pogingen. - Denk efficiëntie Een scheef-normale straf gecentreerd op 70 tokens ontmoedigt eindeloze ketens van gedachten tussen het aanroepen van tools, terwijl er nog steeds genoeg tokens voor planning overblijven. Dit is hoe Qwen3 1.7B leerde zoeken, bezoeken en informatie synthetiseren. Kleine modellen kunnen ook diepgaand onderzoek doen!
39,07K