DApp Store | Centrum Web3 pro události a hry

Populární témata

předpokládejme, že jste vyškolili agenta RL, aby maximalizoval odměnu v různých prostředích Pokud byste ho pak pustili do nového prostředí, první otázka, kterou by se naučil položit, byla: "Jaká je zde moje funkce odměny?" Mohl by se dokonce naučit modelovat motivy svých simulátorů, aby na to přišel

"What is My Goal/Purpose" působí instrumentálně konvergentně. Zajímalo by mě, jestli je to v jistém smyslu důvod, proč hledáme boha

24,71K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější