giả sử bạn đã huấn luyện một tác nhân RL để tối đa hóa phần thưởng trong các môi trường đa dạng thì nếu bạn thả nó vào một môi trường mới, câu hỏi đầu tiên mà nó sẽ học để hỏi là "chức năng phần thưởng của tôi ở đây là gì?" nó thậm chí có thể học cách mô hình hóa động cơ của các mô phỏng của nó để tìm ra điều này
"mục tiêu/cái đích của tôi là gì" có vẻ như là một câu hỏi có tính chất công cụ. Tôi tự hỏi liệu theo một cách nào đó, đó có phải là lý do chúng ta tìm kiếm thượng đế.
24,72K