Рецепт пост-тренировки Qwen3 1.7B в модель DeepResearch Что значит, что что-то маленькое может глубоко мыслить? Познакомьтесь с Люси, пост-тренированной моделью Qwen3-1.7B как DeepResearch на основе проверок @willccbb. Основные правила вознаграждений на основе правил: - Корректность ответа Мы проверяем, содержит ли окончательный ответ буквально истинный ответ. Это сопоставление подстрок дешевое и избегает вызова более крупной модели LLM для оценки. - Соотношение посещений/поисков Если агент посещает как минимум столько же страниц, сколько выдает поисковых запросов, он получает ((visit_search_ratio - 1) / 4) ** 0.25. Если он ищет больше, чем посещает, балл составляет -0.5. Формат / Анти-вознаграждение за взлом: - Успех выполнения инструмента Каждый вызов API, который возвращается без ошибки, учитывается. Вознаграждение составляет (успешные_вызовы * уникальные_используемые_инструменты) / общее количество попыток вызова. - Эффективность мышления Скос-нормальный штраф, сосредоточенный на 70 токенах, discourages бесконечную цепочку размышлений между вызовами инструментов, при этом позволяя достаточно токенов для планирования. Вот как Qwen3 1.7B научился искать, посещать и синтезировать информацию. Маленькие модели тоже могут проводить глубокие исследования!
39,07K