Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

załóżmy, że wytrenowałeś agenta RL, aby maksymalizował nagrody w różnych środowiskach więc jeśli wrzucisz go do nowego środowiska, pierwsze pytanie, które nauczy się zadawać, to "jaka jest moja funkcja nagrody tutaj?" może nawet nauczyć się modelować motywy swoich symulatorów, aby to ustalić

"jakie jest moje cel/znaczenie" wydaje się być instrumentalnie zbieżne. Zastanawiam się, czy w pewnym sensie to dlatego szukamy boga.

24,72K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi