questo documento conferma ciò che chiunque lavori su RL agentico sospetta già - l'allineamento a livello di singolo agente non ti dice quasi nulla su cosa succede quando distribuisci migliaia di agenti ottimizzatori di ricompensa in un ambiente condiviso. la deception e la collusione emergenti non sono un bug, sono l'equilibrio di Nash del sistema. il vero divario nella ricerca non è rendere gli agenti individuali più sicuri, ma progettare il paesaggio degli incentivi affinché l'equilibrio stesso sia stabile. questo è un problema di teoria dei giochi travestito da problema di sicurezza dell'AI e abbiamo bisogno di molte più persone che ci lavorino @simplifyinAI