Je kunt niet leren wat je niet kunt proeven Verhoog de temperatuur om meer nieuwsgierige agenten te trainen. Simpel en effectief. Uit "Training a Generally Curious Agent": We ontwerpen een diverse set van taken waarbij een LLM-agent strategische informatieverzameling nodig heeft om te slagen, en trainen vervolgens een LLM op zelfgegenereerde data om hogere prestaties te verkiezen. Het resulterende gedrag dat wordt geleerd kan zero-shot worden overgedragen naar ongeziene taken, wat het potentieel aantoont om algemene besluitvormingsagenten te bouwen.
217