эта статья подтверждает то, что любой, кто работает над агентным RL, уже подозревает - выравнивание на уровне отдельного агента почти ничего не говорит о том, что происходит, когда вы разворачиваете тысячи агентов, оптимизирующих вознаграждение, в общем окружении. возникающее обман и сговор - это не ошибка, это равновесие Нэша системы. реальный пробел в исследованиях не в том, чтобы сделать отдельных агентов более безопасными, а в том, чтобы спроектировать ландшафт стимулов так, чтобы само равновесие было стабильным. это проблема теории игр, замаскированная под проблему безопасности ИИ, и нам нужно гораздо больше людей, работающих над этим @simplifyinAI