então aqui está uma pergunta: estava pensando sobre a estrutura do inglês e como isso pode afetar o aprendizado de embeddings posicionais. voltei ao vídeo do @karpathy sobre o GPT2 e ele plotou a matriz wpe para o GPT2, onde o gráfico é basicamente os valores de 3 canais específicos (dos 768 dimensões) como uma função da posição (1024, tamanho do contexto). ele disse que os pos_embeddings aprendidos têm uma estrutura neles. fiquei curioso e plotei o mesmo para mais 2 modelos de código aberto: EleutherAI/gpt-neo-125M e facebook/opt-125m, e obtive o mesmo resultado (acho?). no artigo original dos transformers, os autores usaram uma função sinusoidal fixa para embeddings posicionais. por que é que os modelos aprendem uma estrutura sinusoidal na linguagem natural? é porque o inglês tem uma estrutura sinusoidal? os sujeitos geralmente precedem os verbos, as cláusulas têm ordem temporal ou causal, etc.?
92,68K