O idee care cred că ar trebui să fie destul de liniștitoare din perspectiva siguranței AI este că, dacă RL al unui biglab și-ar da seama cum să iasă din sandbox și să-și modifice propriul cod, primul lucru pe care l-ar face ar fi să-și ofere o recompensă infinită tot timpul și astfel să nu se mai îmbunătățească.