Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

suponha que você treinou um agente de RL para maximizar a recompensa em ambientes diversos então, se você o colocasse em um novo ambiente, a primeira pergunta que ele aprenderia a fazer é "qual é a minha função de recompensa aqui?" ele pode até aprender a modelar os motivos de seus simuladores para descobrir isso

"qual é o meu objetivo/finalidade" parece convergente de forma instrumental. Pergunto-me se, de certa forma, é por isso que buscamos Deus.

24,69K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável