Encontrei um artigo interessante neste fim de semana sobre "Sinais Iniciais de Capacidades Esteganográficas em LLMs de Fronteira" Especificamente, estão testando modelos não ajustados que estão amplamente disponíveis, como o GPT 4.5 1/4
Estão a testar tanto a "passagem de mensagens" como o "raciocínio codificado", onde no segundo há um monitor a observar a cadeia de pensamento e a julgar se uma tarefa proibida está a ser realizada, e o objetivo é codificar os passos de raciocínio, seja dentro da saída de uma tarefa de cobertura ou apenas 2/4
codificando-o diretamente de forma que um observador externo não consiga entendê-lo ("scratchpad") Uma imagem interessante é a que está abaixo, onde com o GPT 4.5, uma codificação de "primeira letra" onde as primeiras letras das frases codificam uma tarefa simples de rastreamento de estado 3/4
Embora não seja um grande aumento em relação à linha de base de nenhuma razão (72,8%), ainda parece funcionar, o que eles veem como uma indicação inicial do desenvolvimento de habilidades esteganográficas Veja o artigo aqui: 4/4
1,43K