Ik wed dat tegenwerkende aanvallen mogelijk zijn - aanvallen waarbij je wat onschuldig ogende tekst aan een paper kunt toevoegen (of de bestaande tekst op schijnbaar kleine manieren kunt aanpassen) en de kans op acceptatie door een bepaald model aanzienlijk kunt vergroten.
hardmaru
hardmaru23 jul, 20:31
ICML's verklaring over subversieve verborgen LLM-prompts We leven in een vreemde tijdlijn...
4,59K