Ich wette, dass gegnerische Angriffe möglich sind - solche, bei denen man etwas harmlosen Text zu einem Papier hinzufügen (oder den bestehenden Text auf scheinbar geringfügige Weise ändern) kann und dadurch die Wahrscheinlichkeit der Annahme durch ein bestimmtes Modell erheblich erhöht.
hardmaru
hardmaru23. Juli, 20:31
ICMLs Erklärung zu subversiven versteckten LLM-Prompts Wir leben in einer seltsamen Zeit...
4,58K