Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Anta att du har tränat en RL-agent för att maximera belöningen i olika miljöer
Om du sedan släppte den i en ny miljö skulle den första frågan den lära sig att ställa vara "Vad är min belöningsfunktion här?"
Den kan till och med lära sig att modellera motiven i sina simulatorer för att ta reda på detta
"Vad är mitt mål/syfte" känns instrumentalt konvergent. Jag undrar om det på något sätt är därför vi söker gud
24,71K
Topp
Rankning
Favoriter