Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
giả sử bạn đã huấn luyện một tác nhân RL để tối đa hóa phần thưởng trong các môi trường đa dạng
thì nếu bạn thả nó vào một môi trường mới, câu hỏi đầu tiên mà nó sẽ học để hỏi là "chức năng phần thưởng của tôi ở đây là gì?"
nó thậm chí có thể học cách mô hình hóa động cơ của các mô phỏng của nó để tìm ra điều này
"mục tiêu/cái đích của tôi là gì" có vẻ như là một câu hỏi có tính chất công cụ. Tôi tự hỏi liệu theo một cách nào đó, đó có phải là lý do chúng ta tìm kiếm thượng đế.
24,72K
Hàng đầu
Thứ hạng
Yêu thích