所以這裡有個問題: 我在思考英語的結構,以及它可能如何影響位置嵌入的學習。 我回去看了@karpathy的GPT2視頻,他繪製了GPT2的wpe矩陣,這個圖基本上是3個特定通道(在768維度中)隨著位置(1024,上下文大小)的變化而變化的值。 他說學習到的位置嵌入中有一種結構。我很好奇,於是對另外兩個開源模型進行了相同的繪製:EleutherAI/gpt-neo-125M和facebook/opt-125m,結果我得到了相同的結果(我想?)。 在原始的transformers論文中,作者使用了一個固定的正弦函數來進行位置嵌入。為什麼模型會在自然語言中學習到正弦結構? 這是因為英語有正弦結構嗎?主語通常在動詞之前,子句有時間或因果順序等等?
92.68K