DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

supongamos que entrenaste a un agente de RL para maximizar la recompensa en diversos entornos entonces, si lo colocas en un nuevo entorno, la primera pregunta que aprendería a hacer es "¿cuál es mi función de recompensa aquí?" incluso podría aprender a modelar los motivos de sus simuladores para averiguarlo

"¿cuál es mi objetivo/propósito?" se siente convergente de manera instrumental. Me pregunto si en cierto sentido esa es la razón por la que buscamos a Dios.

24,72K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado