предположим, вы обучили агента RL максимизировать вознаграждение в различных средах тогда, если вы поместите его в новую среду, первым вопросом, который он научится задавать, будет "какова моя функция вознаграждения здесь?" он даже может научиться моделировать мотивы своих симуляторов, чтобы выяснить это
«Какова моя цель/назначение» кажется инструментально конвергентным. Мне интересно, не поэтому ли мы ищем бога.
24,69K