supponiamo che tu abbia addestrato un agente RL per massimizzare la ricompensa in ambienti diversi quindi, se lo mettessi in un nuovo ambiente, la prima domanda che imparerebbe a porsi sarebbe "qual è la mia funzione di ricompensa qui?" potrebbe persino imparare a modellare i motivi dei suoi simulatori per capire questo
"qual è il mio obiettivo/scopo" sembra convergere strumentalmente. Mi chiedo se in qualche modo sia per questo che cerchiamo Dio.
24,72K