tento článek potvrzuje to, co každý, kdo pracuje na agentickém RL, už tuší: zarovnání na úrovni jednoho agenta vám téměř nic neřekne o tom, co se stane, když nasadíte tisíce agentů optimalizujících odměny do sdíleného prostředí. Vznikající klam a koluze není chyba, je to Nashova rovnováha systému. Skutečná výzkumná mezera není v tom, že jednotliví agenti budou bezpečnější, ale navrhnout motivační prostředí tak, aby byla rovnováha stabilní. je to problém teorie her maskovaný jako bezpečnostní problém AI a potřebujeme mnohem více lidí, kteří na tom pracují@simplifyinAI