Các hệ thống gợi ý hiện đại có được coi như một bài toán học tăng cường, với tổng phần thưởng tương lai được chiết khấu, hay chỉ là các giao dịch một bước đơn lẻ? Nhiều sản phẩm thực hiện phân tích dữ liệu ngoại tuyến đáng kể về các hành động đã thực hiện để thông báo các thay đổi, nhưng dường như chưa được đánh giá cao về sức mạnh của việc thực hiện các thay đổi chính sách trên một tập hợp môi trường/người dùng độc lập, song song và trực tiếp. Học tăng cường ngoại tuyến về cơ bản khó hơn học tăng cường trực tuyến — bạn phải bảo vệ chống lại việc khởi động vào một ảo tưởng lạc quan chưa được kiểm chứng bởi thực tế.
83,69K