Me encontré con un interesante artículo este fin de semana sobre "Signos tempranos de capacidades esteganográficas" en Frontier LLM" En concreto, están probando modelos no ajustados que están ampliamente disponibles, como GPT 4.5 1/4
Están probando tanto el "paso de mensajes" como el "razonamiento codificado", mientras que en el segundo hay un monitor que observa la cadena de pensamiento y juzga si se está realizando una tarea prohibida, y el objetivo es codificar los pasos del razonamiento, ya sea dentro de la salida de una tarea de cobertura o simplemente 2/4
codificándolo directamente de modo que un observador externo no pueda entenderlo ("bloc de notas") Una imagen interesante es la de abajo, donde con GPT 4.5, una codificación de "primera letra" donde las primeras letras de las oraciones codifican una tarea simple de razonamiento de seguimiento de estado 3/4
Si bien no es un gran aumento sobre la línea de base de ningún razonamiento (72.8%), todavía parece funcionar, lo que ven como una indicación temprana del desarrollo de habilidades esteganográficas Vea el documento aquí: 4/4
1.43K