トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Qwen3 1.7BをDeepResearchモデルにポストトレーニングするレシピ
小さなことが深く考えるとはどういうことでしょうか?@willccbbの検証ツールに基づくDeepResearchモデルとして、事後トレーニングされたQwen3-1.7BであるLucyをご紹介します。
主なルールベースの報酬:
- 回答の正解
最終的な回答に文字通りグラウンドトゥルースの回答が含まれているかどうかを確認します。この部分文字列の一致は安価であり、より大きな LLM ジャッジを呼び出す必要がなくなります。
- 訪問/検索率
エージェントが検索クエリを発行するページ数と少なくとも同じ数のページにアクセスすると、((visit_search_ratio - 1) / 4) ** 0.25 を受け取ります。訪問数よりも検索数が多い場合、スコアは -0.5 です。
フォーマット / アンチ報酬ハッキング報酬:
- ツール実行の成功
エラーなしで返される各 API 呼び出しはカウントされます。報酬は(successful_calls * unique_tools_used)/total_call_attempts。
- 思考効率
70トークンを中心としたスキューノーマルペナルティは、計画に十分なトークンを許可しながら、ツール呼び出し間の無限の思考の連鎖を阻止します。
このようにして、Qwen3 1.7Bは情報を検索、訪問、合成することを学習しました。小さなモデルでも深い研究ができます!
39.07K
トップ
ランキング
お気に入り