この論文は、エージェント型強化学習に取り組む誰もがすでに疑っていることを裏付けています。つまり、単一のエージェントレベルでのアライメントは、数千の報酬最適化エージェントを共有環境に展開したときに何が起こるかについてほとんど何も教えてくれません。エマージェント・ディセプションと共謀はバグではなく、システムのナッシュ均衡です。本当の研究ギャップは個々のエージェントの安全性を高めることではなく、インセンティブの環境を設計して均衡自体を安定させることにあります。これはAIの安全性問題に見せかけたゲーム理論の問題であり、もっと多くの人が取り組む必要があります@simplifyinAI