Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
suponha que você tenha treinado um agente de RL para maximizar a recompensa em diversos ambientes
Então, se você o colocasse em um novo ambiente, a primeira pergunta que ele aprenderia a fazer é "Qual é a minha função de recompensa aqui?"
pode até aprender a modelar os motivos de seus simuladores para descobrir isso
"Qual é o meu objetivo / propósito" parece instrumentalmente convergente. Eu me pergunto se, em certo sentido, é por isso que buscamos a Deus
24,71K
Melhores
Classificação
Favoritos