Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
supongamos que entrenaste a un agente de RL para maximizar la recompensa en diversos entornos
entonces, si lo colocas en un nuevo entorno, la primera pregunta que aprendería a hacer es "¿cuál es mi función de recompensa aquí?"
incluso podría aprender a modelar los motivos de sus simuladores para averiguarlo
"¿cuál es mi objetivo/propósito?" se siente convergente de manera instrumental. Me pregunto si en cierto sentido esa es la razón por la que buscamos a Dios.
24,72K
Parte superior
Clasificación
Favoritos