ця стаття підтверджує те, що кожен, хто працює над агентським RL, вже підозрює — узгодження на рівні одного агента майже нічого не говорить про те, що відбувається, коли тисячі агентів, що оптимізують винагороду, у спільному середовищі. Виникнення обману і змови — це не баг, це рівновага Неша в системі. Справжній розрив у дослідженнях полягає не в тому, щоб зробити окремих агентів безпечнішими, а в тому, щоб створити ландшафт стимулів так, щоб сама рівновага була стабільною. це проблема теорії ігор, замаскована під проблему безпеки ШІ, і нам потрібно набагато більше людей, які працюють над нею@simplifyinAI