Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

giả sử bạn đã huấn luyện một tác nhân RL để tối đa hóa phần thưởng trong các môi trường đa dạng thì nếu bạn thả nó vào một môi trường mới, câu hỏi đầu tiên mà nó sẽ học để hỏi là "chức năng phần thưởng của tôi ở đây là gì?" nó thậm chí có thể học cách mô hình hóa động cơ của các mô phỏng của nó để tìm ra điều này

"mục tiêu/cái đích của tôi là gì" có vẻ như là một câu hỏi có tính chất công cụ. Tôi tự hỏi liệu theo một cách nào đó, đó có phải là lý do chúng ta tìm kiếm thượng đế.

24,72K

Hàng đầu

Thứ hạng

Yêu thích

Onchain thịnh hành

Thịnh hành trên X

Ví funding hàng đầu gần đây

Được chú ý nhất