1/ Sabemos que los Transformers fallan en la extrapolación de longitud. Pero una nueva investigación muestra un defecto más profundo: fallan en el seguimiento de estados IN-DISTRIBUCIÓN. No aprenden reglas algorítmicas, solo memorizan circuitos aislados por longitud. 🧵