Aposto que ataques adversariais são possíveis - aqueles em que você pode adicionar algum texto inócuo a um artigo (ou alterar o texto existente de maneiras aparentemente menores) e aumentar significativamente a probabilidade de aceitação por algum modelo específico.
hardmaru
hardmaru23/07, 20:31
Declaração da ICML sobre prompts ocultos subversivos de LLM Vivemos numa linha do tempo estranha...
4,59K