Então aqui está uma pergunta: Eu estava pensando sobre a estrutura do inglês e como isso pode afetar o aprendizado de incorporações posicionais. Voltei ao vídeo GPT2 de @karpathy e ele plotou a matriz wpe para GPT2, onde o gráfico é basicamente os valores de 3 canais específicos (das 768 dimensões) em função da posição (1024, tamanho do contexto). Ele disse que os pos_embeddings eruditos têm uma estrutura neles. Fiquei curioso e planejei o mesmo para mais 2 modelos de código aberto: EleutherAI / gpt-neo-125M e facebook / opt-125m, e obtive o mesmo resultado (eu acho?). No artigo original dos transformadores, os autores usaram uma função senoidal fixa para incorporações posicionais. Por que os modelos aprendem a estrutura senoidal em linguagem natural? É porque o inglês tem uma estrutura senoidal? os sujeitos geralmente precedem os verbos, as orações têm ordem temporal ou causal, etc.?
92,68K