Así que aquí hay una pregunta: Estaba pensando en la estructura del inglés y cómo podría afectar el aprendizaje de incrustaciones posicionales. volví al video GPT2 de @karpathy y él trazó la matriz wpe para GPT2 donde el gráfico es básicamente los valores de 3 canales específicos (de las 768 dimensiones) en función de la posición (1024, tamaño de contexto). Dijo que los pos_embeddings eruditos tienen una estructura en ellos. Sentí curiosidad y grafiqué lo mismo para 2 modelos de código abierto más: EleutherAI / gpt-neo-125M y Facebook / opt-125M, y obtuve el mismo resultado (¿supongo?). En el artículo original de Transformers, los autores utilizaron una función sinusoidal fija para incrustaciones posicionales. ¿Por qué es el caso de que los modelos aprenden la estructura sinusoidal en lenguaje natural? ¿Es porque el inglés tiene una estructura sinusoidal? los sujetos suelen preceder a los verbos, las cláusulas tienen orden temporal o causal, etc.?
92.68K