Магазин DApp | Web3-центр мероприятий и игр | Кошелек OKX

Актуальные темы

предположим, вы обучили агента RL максимизировать вознаграждение в различных средах тогда, если вы поместите его в новую среду, первым вопросом, который он научится задавать, будет "какова моя функция вознаграждения здесь?" он даже может научиться моделировать мотивы своих симуляторов, чтобы выяснить это

«Какова моя цель/назначение» кажется инструментально конвергентным. Мне интересно, не поэтому ли мы ищем бога.

24,69K

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные