Nie możesz nauczyć się tego, czego nie możesz spróbować. Zwiększ temperaturę, aby trenować bardziej ciekawskie agenty. Proste i skuteczne. Z "Trenowanie ogólnie ciekawskiego agenta": Projektujemy różnorodny zestaw zadań, w których agent LLM potrzebuje strategicznego gromadzenia informacji, aby odnieść sukces, a następnie trenujemy LLM na danych generowanych samodzielnie, aby preferował trajektorie o wyższej wydajności. Wyuczone zachowanie może być przenoszone zero-shot na niewidziane zadania, co pokazuje jego potencjał do budowania ogólnych agentów podejmujących decyzje.
232