să presupunem că ați instruit un agent RL pentru a maximiza recompensa în diverse medii Apoi, dacă l-ai arunca într-un mediu nou, prima întrebare pe care ar învăța să o pună este "Care este funcția mea de recompensă aici?" Ar putea chiar să învețe să modeleze motivele simulatoarelor sale pentru a-și da seama de acest lucru
"What Is My Purpose/Purpose" se simte convergent din punct de vedere instrumental. Mă întreb dacă, într-un fel, acesta este motivul pentru care îl căutăm pe Dumnezeu
24,73K