Вы не можете узнать то, что не можете протестировать Увеличьте температуру, чтобы обучить более любознательных агентов. Просто и эффективно. Из "Обучение общего любознательного агента": Мы разрабатываем разнообразный набор задач, где агент LLM нуждается в стратегическом сборе информации для достижения успеха, затем обучаем LLM на самосгенерированных данных, чтобы предпочитать более высокоэффективные траектории. Полученное поведение может переноситься без обучения на невидимые задачи, демонстрируя его потенциал для создания общих агентов принятия решений.
214