Założę się, że ataki adwersarialne są możliwe - takie, w których można dodać do pracy jakiś nieszkodliwy tekst (lub wprowadzić drobne zmiany w istniejącym tekście) i znacznie zwiększyć prawdopodobieństwo akceptacji przez dany model.
hardmaru
hardmaru23 lip, 20:31
Oświadczenie ICML na temat podstępnych ukrytych podpowiedzi LLM Żyjemy w dziwnej rzeczywistości…
4,59K