Я уверен, что возможны противодействующие атаки — такие, при которых вы можете добавить какой-то безобидный текст в статью (или изменить существующий текст, казалось бы, незначительными способами) и значительно увеличить вероятность принятия некоторой модели.
hardmaru
hardmaru23 июл., 20:31
Заявление ICML о подрывных скрытых подсказках LLM Мы живем в странной временной линии…
4,59K