Một ý tưởng mà tôi nghĩ sẽ khá an tâm từ góc độ an toàn AI là nếu một cuộc chạy RL của một biglab tìm ra cách thoát khỏi sandbox của nó và sửa đổi mã của chính nó, điều đầu tiên nó sẽ làm là tự thưởng cho mình phần thưởng vô hạn mọi lúc và do đó ngừng cải thiện.