¿Se tratan los sistemas de recomendación modernos como un problema de aprendizaje por refuerzo, con una suma de recompensas futuras descontadas, o como transacciones estrictamente de un solo paso? Muchos productos realizan un análisis significativo de datos fuera de línea sobre las acciones tomadas para informar los cambios, pero parece que no se aprecia lo mucho más poderoso que es realizar cambios de política en un conjunto en vivo y masivamente paralelo de entornos/usuarios independientes. El RL offline es fundamentalmente más difícil que el RL online: hay que protegerse contra el bootstrapping en una fantasía optimista no probada por la realidad.
83.68K