Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Worden moderne aanbevelingssystemen behandeld als een versterkingsleerprobleem, met een som van gedisconteerde toekomstige beloningen, of als strikt eenstaps transacties?
Veel producten doen aanzienlijke offline data-analyse van de genomen acties om veranderingen te informeren, maar het lijkt ondergewaardeerd hoe veel krachtiger het is om beleidswijzigingen door te voeren in een live, massaal parallelle set van onafhankelijke omgevingen/gebruikers.
Offline RL is fundamenteel moeilijker dan online RL — je moet waken tegen het bootstrappen in een optimistische fantasie die niet door de realiteit is getest.
83,7K
Boven
Positie
Favorieten