Apuesto a que los ataques adversarios son posibles, aquellos en los que puede agregar texto inocuo a un artículo (o alterar el texto existente de maneras aparentemente menores) y aumentar significativamente la probabilidad de aceptación por parte de un modelo determinado
hardmaru
hardmaru23 jul, 20:31
Declaración de ICML sobre las indicaciones subversivas ocultas de LLM Vivimos en una línea de tiempo extraña ...
4.58K