Não se pode aprender aquilo que não se pode amostrar Aumente a temperatura para treinar agentes mais curiosos. Simples e eficaz. De "Treinando um Agente Geralmente Curioso": Desenhamos um conjunto diversificado de tarefas onde um agente LLM precisa de coleta estratégica de informações para ter sucesso, e depois treinamos um LLM com dados auto-gerados para preferir trajetórias de melhor desempenho. O comportamento resultante aprendido pode ser transferido zero-shot para tarefas não vistas, demonstrando seu potencial para construir agentes de tomada de decisão geral.
215