Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
załóżmy, że wytrenowałeś agenta RL, aby maksymalizował nagrody w różnych środowiskach
więc jeśli wrzucisz go do nowego środowiska, pierwsze pytanie, które nauczy się zadawać, to "jaka jest moja funkcja nagrody tutaj?"
może nawet nauczyć się modelować motywy swoich symulatorów, aby to ustalić
"jakie jest moje cel/znaczenie" wydaje się być instrumentalnie zbieżne. Zastanawiam się, czy w pewnym sensie to dlatego szukamy boga.
24,72K
Najlepsze
Ranking
Ulubione