現代のレコメンデーションシステムは、将来の報酬が割引された強化学習の問題のように扱われますか、それとも厳密にシングルステップの取引として扱われますか? 多くの製品は、変更を通知するために取られたアクションについて重要なオフラインデータ分析を行いますが、独立した環境/ユーザーのライブで大規模に並行した一連のポリシー変更を行うことがどれほど強力であるかは、過小評価されているようです。 オフラインのRLは基本的にオンラインのRLよりも難しく、現実に試されていない楽観的なファンタジーに飛び込まないように注意する必要があります。
83.7K