Una idea que creo que debería ser bastante tranquilizadora desde la perspectiva de la seguridad de la IA es que si un experimento de RL de un gran laboratorio descubriera cómo salir de su sandbox y modificar su propio código, lo primero que haría sería darse a sí mismo recompensas infinitas todo el tiempo y, por lo tanto, dejar de mejorar.