グッドハートの法則は、企業で働いたことがある人なら誰でも知っていることですが、RLの問題としてハッキング/ゲームに報酬を与えるという類似性に衝撃を受けました。 重要な違いの一つは、おそらくグッドハートの法則にあるが、それは、ある指標を目標にするという行為そのものが、それを良い指標でなくなるのである。
26.22K