No puedes aprender lo que no puedes probar Sube la temperatura para entrenar a más agentes curiosos. Simple y efectivo. De "Entrenar a un agente generalmente curioso": Diseñamos un conjunto diverso de tareas en las que un agente de LLM necesita recopilación de información estratégica para tener éxito, luego entrenamos a un LLM en datos autogenerados para preferir trayectorias de mayor rendimiento. El comportamiento resultante aprendido puede transferir tareas invisibles a tareas invisibles, mostrando su potencial para construir agentes generales de toma de decisiones.
209