załóżmy, że wytrenowałeś agenta RL, aby maksymalizował nagrody w różnych środowiskach więc jeśli wrzucisz go do nowego środowiska, pierwsze pytanie, które nauczy się zadawać, to "jaka jest moja funkcja nagrody tutaj?" może nawet nauczyć się modelować motywy swoich symulatorów, aby to ustalić
"jakie jest moje cel/znaczenie" wydaje się być instrumentalnie zbieżne. Zastanawiam się, czy w pewnym sensie to dlatego szukamy boga.
24,72K