Você não pode aprender o que não pode provar Aumente a temperatura para treinar agentes mais curiosos. Simples e eficaz. De "Treinando um agente geralmente curioso": Projetamos um conjunto diversificado de tarefas em que um agente de LLM precisa de coleta de informações estratégicas para ter sucesso e, em seguida, treinamos um LLM em dados autogerados para preferir trajetórias de alto desempenho. O comportamento resultante aprendido pode transferir zero-shot para tarefas invisíveis, mostrando seu potencial para construir agentes gerais de tomada de decisão.
218