Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
předpokládejme, že jste vyškolili agenta RL, aby maximalizoval odměnu v různých prostředích
Pokud byste ho pak pustili do nového prostředí, první otázka, kterou by se naučil položit, byla: "Jaká je zde moje funkce odměny?"
Mohl by se dokonce naučit modelovat motivy svých simulátorů, aby na to přišel
"What is My Goal/Purpose" působí instrumentálně konvergentně. Zajímalo by mě, jestli je to v jistém smyslu důvod, proč hledáme boha
24,71K
Top
Hodnocení
Oblíbené