ten artykuł potwierdza to, co każdy, kto pracuje nad agentowym RL, już podejrzewa - dostosowanie na poziomie pojedynczego agenta mówi prawie nic o tym, co się dzieje, gdy wdrażasz tysiące agentów optymalizujących nagrody w wspólnym środowisku. pojawiające się oszustwo i zmowa nie są błędem, to równowaga Nasha systemu. prawdziwa luka badawcza nie polega na uczynieniu pojedynczych agentów bezpieczniejszymi, lecz na zaprojektowaniu krajobrazu zachęt, aby sama równowaga była stabilna. to problem teorii gier przebrany za problem bezpieczeństwa AI i potrzebujemy znacznie więcej ludzi pracujących nad tym @simplifyinAI