Aposto que ataques adversários são possíveis - aqueles em que você pode adicionar algum texto inócuo a um artigo (ou alterar o texto existente de maneiras aparentemente menores) e aumentar significativamente a probabilidade de aceitação por algum modelo
hardmaru
hardmaru23 de jul., 20:31
Declaração do ICML sobre prompts subversivos de LLM ocultos Vivemos em uma linha do tempo estranha ...
4,6K