Verbaasd over hoe vergelijkbaar Goodhart's Law - bekend bij iedereen die in een corporate baan heeft gewerkt - is met het hacken/gamen van beloningen als een probleem in RL. Hoewel een belangrijk verschil misschien is dat het in Goodhart's Law de daad zelf is van het maken van een metriek tot het doel, dat ervoor zorgt dat het geen goede metriek meer is.
26,22K