suponha que você tenha treinado um agente de RL para maximizar a recompensa em diversos ambientes Então, se você o colocasse em um novo ambiente, a primeira pergunta que ele aprenderia a fazer é "Qual é a minha função de recompensa aqui?" pode até aprender a modelar os motivos de seus simuladores para descobrir isso
"Qual é o meu objetivo / propósito" parece instrumentalmente convergente. Eu me pergunto se, em certo sentido, é por isso que buscamos a Deus
24,71K