大きなモデルは優れたエージェントですが、多くの場合、大きすぎたり、閉じていたり、繊細すぎて微調整できません アイデア: 小さなモデルをトレーニングして、凍結した大きなモデルのコンテキストを作成し、大きなモデルの出力をスコアリングし、それを小さなモデルの報酬として使用します コンテキストチューニング用のgRPO。詳細は以下をご覧ください
11.62K