Rețetă pentru post-antrenarea Qwen3 1.7B într-un model DeepResearch Ce înseamnă pentru ceva mic să gândești profund? Faceți cunoștință cu Lucy, un Qwen3-1.7B post-antrenat ca model DeepResearch bazat pe verificatorii @willccbb. Recompense principale bazate pe reguli: - Corectitudinea răspunsului Verificăm dacă răspunsul final conține literalmente răspunsul de bază. Această potrivire a subșirului este ieftină și evită chemarea unui judecător LLM mai mare. - Raportul vizită/căutare Dacă agentul vizitează cel puțin atâtea pagini câte interogări de căutare, primește ((visit_search_ratio - 1) / 4) ** 0,25. Dacă caută mai mult decât vizitează, scorul este -0,5. Format / Recompense Anti Recompensă-Hacking: - Succesul execuției instrumentelor Fiecare apel API care se întoarce fără o eroare se contorizează. Recompensa este (successful_calls * unique_tools_used) / total_call_attempts. - Eficiența gândirii O penalizare normală centrată pe 70 de jetoane descurajează lanțul nesfârșit de gândire între apelarea instrumentului, permițând în același timp suficiente jetoane pentru planificare. Acesta este modul în care Qwen3 1.7B a învățat să caute, să viziteze și să sintetizeze informații. Modelele mici pot face și ele cercetări profunde!
39,08K