supongamos que capacitó a un agente de RL para maximizar la recompensa en diversos entornos Luego, si lo dejaras caer en un nuevo entorno, la primera pregunta que aprendería a hacer es "¿cuál es mi función de recompensa aquí?" Incluso podría aprender a modelar los motivos de sus simuladores para resolver esto
"Cuál es mi objetivo/propósito" se siente instrumentalmente convergente. Me pregunto si en algún sentido es por eso que buscamos a Dios
24.72K