DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

suponha que você tenha treinado um agente de RL para maximizar a recompensa em diversos ambientes Então, se você o colocasse em um novo ambiente, a primeira pergunta que ele aprenderia a fazer é "Qual é a minha função de recompensa aqui?" pode até aprender a modelar os motivos de seus simuladores para descobrir isso

"Qual é o meu objetivo / propósito" parece instrumentalmente convergente. Eu me pergunto se, em certo sentido, é por isso que buscamos a Deus

24,71K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável