现代推荐系统是被视为强化学习问题,考虑未来折现奖励的总和,还是严格的单步交易? 许多产品在采取的行动上进行大量离线数据分析,以通知更改,但似乎低估了在实时、大规模并行的独立环境/用户上进行策略更改的强大能力。 离线强化学习在根本上比在线强化学习更难——你必须防止进入一个未经过现实检验的乐观幻想。
83.69K