Impressionado com a semelhança da Lei de Goodhart - familiar para qualquer pessoa que tenha trabalhado em um emprego corporativo - é recompensar o hacking / jogo como um problema em RL. Embora uma diferença fundamental talvez esteja na Lei de Goodhart, é o próprio ato de tornar uma métrica o alvo que a faz deixar de ser uma boa métrica.
26,23K