Scommetto che gli attacchi avversariali sono possibili - quelli in cui puoi aggiungere del testo innocuo a un documento (o alterare il testo esistente in modi apparentemente minori) e aumentare significativamente la probabilità di accettazione da parte di un determinato modello.
hardmaru
hardmaru23 lug, 20:31
Dichiarazione di ICML riguardo ai prompt LLM nascosti e sovversivi Viviamo in una linea temporale strana...
4,61K