Vous ne pouvez pas apprendre ce que vous ne pouvez pas échantillonner Augmentez la température pour entraîner des agents plus curieux. Simple et efficace. Extrait de "Former un agent généralement curieux" : Nous concevons un ensemble diversifié de tâches où un agent LLM doit rassembler des informations stratégiques pour réussir, puis nous formons un LLM sur des données auto-générées pour préférer des trajectoires à meilleure performance. Le comportement résultant appris peut être transféré sans entraînement préalable à des tâches non vues, montrant son potentiel à construire des agents de prise de décision générale.
231