Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
предположим, вы обучили агента RL максимизировать вознаграждение в различных средах
тогда, если вы поместите его в новую среду, первым вопросом, который он научится задавать, будет "какова моя функция вознаграждения здесь?"
он даже может научиться моделировать мотивы своих симуляторов, чтобы выяснить это
«Какова моя цель/назначение» кажется инструментально конвергентным. Мне интересно, не поэтому ли мы ищем бога.
24,69K
Топ
Рейтинг
Избранное