Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Rețetă pentru post-antrenarea Qwen3 1.7B într-un model DeepResearch
Ce înseamnă pentru ceva mic să gândești profund? Faceți cunoștință cu Lucy, un Qwen3-1.7B post-antrenat ca model DeepResearch bazat pe verificatorii @willccbb.
Recompense principale bazate pe reguli:
- Corectitudinea răspunsului
Verificăm dacă răspunsul final conține literalmente răspunsul de bază. Această potrivire a subșirului este ieftină și evită chemarea unui judecător LLM mai mare.
- Raportul vizită/căutare
Dacă agentul vizitează cel puțin atâtea pagini câte interogări de căutare, primește ((visit_search_ratio - 1) / 4) ** 0,25. Dacă caută mai mult decât vizitează, scorul este -0,5.
Format / Recompense Anti Recompensă-Hacking:
- Succesul execuției instrumentelor
Fiecare apel API care se întoarce fără o eroare se contorizează. Recompensa este (successful_calls * unique_tools_used) / total_call_attempts.
- Eficiența gândirii
O penalizare normală centrată pe 70 de jetoane descurajează lanțul nesfârșit de gândire între apelarea instrumentului, permițând în același timp suficiente jetoane pentru planificare.
Acesta este modul în care Qwen3 1.7B a învățat să caute, să viziteze și să sintetizeze informații. Modelele mici pot face și ele cercetări profunde!
39,08K
Limită superioară
Clasament
Favorite