لنفترض أنك قمت بتدريب وكيل RL لتعظيم المكافأة عبر بيئات متنوعة ثم إذا أسقطتها في بيئة جديدة ، فإن السؤال الأول الذي سيتعلم طرحه هو "ما هي وظيفة المكافأة الخاصة بي هنا؟" قد تتعلم حتى نمذجة دوافع أجهزة المحاكاة الخاصة بها لمعرفة ذلك
"ما هو هدفي / غرضي" يبدو متقاربا بشكل فعال. أتساءل عما إذا كان هذا هو السبب في أننا نبحث عن الله
‏‎24.69‏K