Fiquei impressionado com a semelhança da Lei de Goodhart - familiar para quem trabalhou em um emprego corporativo - com a manipulação de recompensas / jogos como um problema em RL. Embora uma diferença chave talvez seja que, na Lei de Goodhart, é o próprio ato de tornar uma métrica o alvo que faz com que ela deixe de ser uma boa métrica.
26,22K