Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
supponiamo che tu abbia addestrato un agente RL per massimizzare la ricompensa in ambienti diversi
quindi, se lo mettessi in un nuovo ambiente, la prima domanda che imparerebbe a porsi sarebbe "qual è la mia funzione di ricompensa qui?"
potrebbe persino imparare a modellare i motivi dei suoi simulatori per capire questo
"qual è il mio obiettivo/scopo" sembra convergere strumentalmente. Mi chiedo se in qualche modo sia per questo che cerchiamo Dio.
24,72K
Principali
Ranking
Preferiti