Рецепт для переходу Qwen3 1.7B у модель DeepResearch Що означає для чогось маленького глибоко мислити? Зустрічайте Люсі, пост-навчену Qwen3-1.7B як модель DeepResearch, засновану на верифікаторах @willccbb. Основні винагороди на основі правил: - Правильність відповіді Ми перевіряємо, чи містить остаточна відповідь буквально відповідь. Цей збіг підрядків є дешевим і дозволяє уникнути виклику більшого судді LLM. - Співвідношення відвідувань/пошукових запитів Якщо агент відвідує хоча б стільки сторінок, скільки видає пошукові запити, він отримує ((visit_search_ratio - 1) / 4) ** 0,25. Якщо він шукає більше, ніж відвідує, оцінка становить -0,5. Формат / Anti Reward-Hacking Rewarding: - Успішне виконання інструменту Кожен виклик API, який повертається без помилки, зараховується. Нагорода становить (successful_calls * unique_tools_used) / total_call_attempts. - Ефективність мислення Звичайний штраф із центром у 70 токенів перешкоджає нескінченному ланцюжку думок між дзвінками інструментів, водночас дозволяючи достатньо токенів для планування. Так Qwen3 1.7B навчився шукати, відвідувати та синтезувати інформацію. Маленькі моделі також можуть проводити глибокі дослідження!
39,17K