Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
supongamos que capacitó a un agente de RL para maximizar la recompensa en diversos entornos
Luego, si lo dejaras caer en un nuevo entorno, la primera pregunta que aprendería a hacer es "¿cuál es mi función de recompensa aquí?"
Incluso podría aprender a modelar los motivos de sus simuladores para resolver esto
"Cuál es mi objetivo/propósito" se siente instrumentalmente convergente. Me pregunto si en algún sentido es por eso que buscamos a Dios
24.72K
Populares
Ranking
Favoritas