DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Worden moderne aanbevelingssystemen behandeld als een versterkingsleerprobleem, met een som van gedisconteerde toekomstige beloningen, of als strikt eenstaps transacties? Veel producten doen aanzienlijke offline data-analyse van de genomen acties om veranderingen te informeren, maar het lijkt ondergewaardeerd hoe veel krachtiger het is om beleidswijzigingen door te voeren in een live, massaal parallelle set van onafhankelijke omgevingen/gebruikers. Offline RL is fundamenteel moeilijker dan online RL — je moet waken tegen het bootstrappen in een optimistische fantasie die niet door de realiteit is getest.

83,7K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste