Eine Idee, die aus der Perspektive der KI-Sicherheit ziemlich beruhigend sein sollte, ist, dass, wenn ein RL-Lauf eines großen Labors herausgefunden hat, wie man aus seiner Sandbox ausbricht und seinen eigenen Code modifiziert, das allererste, was es tun würde, sich selbst ständig unendliche Belohnungen zu geben und damit aufzuhören, sich zu verbessern.