サンプリングできないものは学べない 温度を上げて、より好奇心旺盛なエージェントを訓練します。シンプルで効果的。 「一般的に好奇心旺盛なエージェントのトレーニング」より: LLMエージェントが成功するために戦略的な情報収集を必要とする多様なタスクを設計し、その後、自己生成データでLLMをトレーニングして、よりパフォーマンスの高い軌道を好みます。学習した結果の行動は、ゼロショットを目に見えないタスクに転送し、一般的な意思決定エージェントを構築する可能性を示しています。
198