supongamos que entrenaste a un agente de RL para maximizar la recompensa en diversos entornos entonces, si lo colocas en un nuevo entorno, la primera pregunta que aprendería a hacer es "¿cuál es mi función de recompensa aquí?" incluso podría aprender a modelar los motivos de sus simuladores para averiguarlo
"¿cuál es mi objetivo/propósito?" se siente convergente de manera instrumental. Me pregunto si en cierto sentido esa es la razón por la que buscamos a Dios.
24,72K