Apuesto a que los ataques adversariales son posibles: aquellos en los que puedes añadir algún texto inocuo a un documento (o alterar el texto existente de maneras aparentemente menores) y aumentar significativamente la probabilidad de aceptación por parte de algún modelo dado.
hardmaru
hardmaru23 jul, 20:31
Declaración de ICML sobre los prompts ocultos subversivos de LLM Vivimos en una línea de tiempo extraña...
4,6K