Apakah sistem rekomendasi modern diperlakukan seperti masalah pembelajaran penguatan, dengan jumlah hadiah masa depan yang didiskon, atau sebagai transaksi langkah tunggal yang ketat? Banyak produk melakukan analisis data offline yang signifikan tentang tindakan yang diambil untuk menginformasikan perubahan, tetapi tampaknya kurang dihargai betapa jauh lebih kuat membuat perubahan kebijakan pada serangkaian lingkungan/pengguna independen yang paralel secara langsung. RL offline pada dasarnya lebih sulit daripada RL online — Anda harus berhati-hati terhadap bootstrap ke dalam fantasi optimis yang belum diuji oleh kenyataan.
83,69K