Qwen3 1.7BをDeepResearchモデルにポストトレーニングするレシピ 小さなことが深く考えるとはどういうことでしょうか?@willccbbの検証ツールに基づくDeepResearchモデルとして、事後トレーニングされたQwen3-1.7BであるLucyをご紹介します。 主なルールベースの報酬: - 回答の正解 最終的な回答に文字通りグラウンドトゥルースの回答が含まれているかどうかを確認します。この部分文字列の一致は安価であり、より大きな LLM ジャッジを呼び出す必要がなくなります。 - 訪問/検索率 エージェントが検索クエリを発行するページ数と少なくとも同じ数のページにアクセスすると、((visit_search_ratio - 1) / 4) ** 0.25 を受け取ります。訪問数よりも検索数が多い場合、スコアは -0.5 です。 フォーマット / アンチ報酬ハッキング報酬: - ツール実行の成功 エラーなしで返される各 API 呼び出しはカウントされます。報酬は(successful_calls * unique_tools_used)/total_call_attempts。 - 思考効率 70トークンを中心としたスキューノーマルペナルティは、計画に十分なトークンを許可しながら、ツール呼び出し間の無限の思考の連鎖を阻止します。 このようにして、Qwen3 1.7Bは情報を検索、訪問、合成することを学習しました。小さなモデルでも深い研究ができます!
39.07K