Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
suponha que você treinou um agente de RL para maximizar a recompensa em ambientes diversos
então, se você o colocasse em um novo ambiente, a primeira pergunta que ele aprenderia a fazer é "qual é a minha função de recompensa aqui?"
ele pode até aprender a modelar os motivos de seus simuladores para descobrir isso
"qual é o meu objetivo/finalidade" parece convergente de forma instrumental. Pergunto-me se, de certa forma, é por isso que buscamos Deus.
24,69K
Top
Classificação
Favoritos