suponha que você treinou um agente de RL para maximizar a recompensa em ambientes diversos então, se você o colocasse em um novo ambiente, a primeira pergunta que ele aprenderia a fazer é "qual é a minha função de recompensa aqui?" ele pode até aprender a modelar os motivos de seus simuladores para descobrir isso
"qual é o meu objetivo/finalidade" parece convergente de forma instrumental. Pergunto-me se, de certa forma, é por isso que buscamos Deus.
24,69K