Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
então aqui está uma pergunta:
estava pensando sobre a estrutura do inglês e como isso pode afetar o aprendizado de embeddings posicionais.
voltei ao vídeo do @karpathy sobre o GPT2 e ele plotou a matriz wpe para o GPT2, onde o gráfico é basicamente os valores de 3 canais específicos (dos 768 dimensões) como uma função da posição (1024, tamanho do contexto).
ele disse que os pos_embeddings aprendidos têm uma estrutura neles. fiquei curioso e plotei o mesmo para mais 2 modelos de código aberto: EleutherAI/gpt-neo-125M e facebook/opt-125m, e obtive o mesmo resultado (acho?).
no artigo original dos transformers, os autores usaram uma função sinusoidal fixa para embeddings posicionais. por que é que os modelos aprendem uma estrutura sinusoidal na linguagem natural?
é porque o inglês tem uma estrutura sinusoidal? os sujeitos geralmente precedem os verbos, as cláusulas têm ordem temporal ou causal, etc.?




92,68K
Top
Classificação
Favoritos