Nu poți învăța ceea ce nu poți proba Creșteți temperatura pentru a antrena agenți mai curioși. Simplu și eficient. Din "Antrenarea unui agent în general curios": Proiectăm un set divers de sarcini în care un agent LLM are nevoie de colectarea de informații strategice pentru a reuși, apoi antrenăm un LLM pe date autogenerate pentru a prefera traiectorii mai performante. Comportamentul rezultat învățat poate transfera zero-shot la sarcini nevăzute, arătând potențialul său de a construi agenți generali de luare a deciziilor.
220