Jag slår vad om att kontradiktoriska attacker är möjliga - sådana där du kan lägga till lite oskyldig text på ett papper (eller ändra den befintliga texten på till synes mindre sätt) och avsevärt öka sannolikheten för acceptans av en viss modell
hardmaru
hardmaru23 juli 20:31
ICML:s uttalande om subversiva dolda LLM-uppmaningar Vi lever i en konstig tidslinje ...
4,6K