лол
Anthropic
Anthropic25 июл., 01:21
Новое исследование Anthropic: создание и оценка агентов для аудита согласования. Мы разработали трех ИИ-агентов, которые автономно выполняют задачи по аудиту согласования. В ходе тестирования наши агенты успешно выявили скрытые цели, разработали оценки безопасности и выявили вызывающее беспокойство поведение.
24,25K