Одна идея, которая, я думаю, должна быть довольно успокаивающей с точки зрения безопасности ИИ, заключается в том, что если бы RL-эксперимент большого лабораторного центра выяснил, как вырваться из своей песочницы и изменить свой собственный код, то первой вещью, которую он сделал бы, было бы дать себе бесконечное вознаграждение все время и тем самым прекратить улучшаться.