Du kannst nicht lernen, was du nicht probieren kannst. Erhöhe die Temperatur, um neugierigere Agenten zu trainieren. Einfach und effektiv. Aus "Training a Generally Curious Agent": Wir entwerfen eine vielfältige Reihe von Aufgaben, bei denen ein LLM-Agent strategische Informationsbeschaffung benötigt, um erfolgreich zu sein, und trainieren dann ein LLM mit selbstgenerierten Daten, um leistungsstärkere Trajektorien zu bevorzugen. Das resultierende Verhalten kann null-shot auf ungesehene Aufgaben übertragen werden, was sein Potenzial zeigt, allgemeine Entscheidungsfindungsagenten zu entwickeln.
210