Помираю від сміху
Anthropic
Anthropic25 лип., 01:21
Нове антропічне дослідження: створення та оцінка аудиторських агентів вирівнювання. Ми розробили три AI-агенти для автономного виконання завдань аудиту вирівнювання. Під час тестування наші агенти успішно виявили приховані цілі, побудували оцінку безпеки та вийшли на поверхню щодо поведінки, що викликає занепокоєння.
24,25K