Б'юся об заклад, що можливі змагальні атаки - такі, коли ви можете додати якийсь нешкідливий текст до паперу (або змінити існуючий, здавалося б, незначний спосіб) і значно збільшити ймовірність прийняття якоюсь заданою моделлю
hardmaru
hardmaru23 лип., 20:31
Заява ICML про підривні приховані підказки LLM Ми живемо в дивній часовій шкалі...
4,58K