Je parie que des attaques adversariales sont possibles - celles où vous pouvez ajouter un texte inoffensif à un document (ou modifier le texte existant de manière apparemment mineure) et augmenter considérablement la probabilité d'acceptation par un modèle donné.
hardmaru
hardmaru23 juil., 20:31
Déclaration de l'ICML concernant les invites cachées subversives des LLM Nous vivons dans une timeline étrange...
4,58K