Tenk deg at du har trent opp en RL-agent til å maksimere belønningen på tvers av ulike miljøer Så hvis du slapp den inn i et nytt miljø, er det første spørsmålet den ville lære å stille "hva er belønningsfunksjonen min her?" den kan til og med lære å modellere motivene til simulatorene sine for å finne ut av dette
«Hva er mitt mål/formål» føles instrumentelt konvergerende. Jeg lurer på om det på en eller annen måte er derfor vi søker gud
24,74K