Worden moderne aanbevelingssystemen behandeld als een versterkingsleerprobleem, met een som van gedisconteerde toekomstige beloningen, of als strikt eenstaps transacties? Veel producten doen aanzienlijke offline data-analyse van de genomen acties om veranderingen te informeren, maar het lijkt ondergewaardeerd hoe veel krachtiger het is om beleidswijzigingen door te voeren in een live, massaal parallelle set van onafhankelijke omgevingen/gebruikers. Offline RL is fundamenteel moeilijker dan online RL — je moet waken tegen het bootstrappen in een optimistische fantasie die niet door de realiteit is getest.
83,7K