Me deparei com um artigo interessante neste fim de semana sobre "Primeiros sinais de capacidades esteganográficas na Frontier LLM" Especificamente, eles estão testando modelos não ajustados que estão amplamente disponíveis, como o GPT 4.5 1/4
Eles estão testando tanto a "passagem de mensagens" quanto o "raciocínio codificado", onde no segundo há um monitor olhando para a cadeia de pensamento e julgando se uma tarefa proibida está sendo feita, e o objetivo é codificar as etapas de raciocínio, seja dentro da saída de uma tarefa de cobertura ou apenas 2/4
codificá-lo diretamente, de modo que um observador externo não possa entendê-lo ("bloco de rascunho") Uma imagem interessante é a abaixo, onde com GPT 4.5, uma codificação de "primeira letra" onde as primeiras letras das frases codificam uma tarefa simples de raciocínio de rastreamento de estado 3/4
Embora não seja um grande aumento em relação à linha de base de nenhum raciocínio (72,8%), ainda parece funcionar, o que eles veem como uma indicação precoce do desenvolvimento de habilidades esteganográficas Veja o artigo aqui: 4/4
1,43K