această lucrare confirmă ceea ce oricine lucrează la RL agentic deja bănuiește – alinierea la nivel de agent unic îți spune aproape nimic despre ce se întâmplă când implementezi mii de agenți care optimizează recompensele într-un mediu comun. Înșelăciunea și complicitatea emergente nu sunt o eroare, ci echilibrul Nash al sistemului. Adevărata diferență în cercetare nu este să faci agenții individuali mai siguri, ci în proiectarea peisajului stimulentelor astfel încât echilibrul în sine să fie stabil. aceasta este o problemă de teorie a jocurilor deghizată ca o problemă de siguranță a inteligenței artificiale și avem nevoie de mult mai mulți oameni care să lucreze la ea @simplifyinAI