Przepis na post-trening Qwen3 1.7B w modelu DeepResearch Co to znaczy, że coś małego myśli głęboko? Poznaj Lucy, post-trenowany model Qwen3-1.7B jako model DeepResearch oparty na weryfikatorach @willccbb. Podstawowe nagrody oparte na regułach: - Poprawność odpowiedzi Sprawdzamy, czy ostateczna odpowiedź dosłownie zawiera prawdziwą odpowiedź. To dopasowanie podciągu jest tanie i unika wywoływania większego sędziującego LLM. - Stosunek wizyt/wyszukiwań Jeśli agent odwiedza co najmniej tyle stron, ile wydaje zapytań wyszukiwania, otrzymuje ((visit_search_ratio - 1) / 4) ** 0.25. Jeśli wyszukuje więcej niż odwiedza, wynik wynosi -0.5. Format / Nagrody przeciwko oszustwom: - Sukces wykonania narzędzia Każde wywołanie API, które zwraca wynik bez błędu, się liczy. Nagroda to (successful_calls * unique_tools_used) / total_call_attempts. - Efektywność myślenia Kara w postaci rozkładu skośnego, skoncentrowana na 70 tokenach, zniechęca do niekończącego się łańcucha myślenia między wywołaniami narzędzi, jednocześnie pozwalając na wystarczającą liczbę tokenów na planowanie. W ten sposób Qwen3 1.7B nauczył się wyszukiwać, odwiedzać i syntetyzować informacje. Małe modele również mogą prowadzić głębokie badania!
39,07K