熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
所以這裡有個問題:
我在思考英語的結構,以及它可能如何影響位置嵌入的學習。
我回去看了@karpathy的GPT2視頻,他繪製了GPT2的wpe矩陣,這個圖基本上是3個特定通道(在768維度中)隨著位置(1024,上下文大小)的變化而變化的值。
他說學習到的位置嵌入中有一種結構。我很好奇,於是對另外兩個開源模型進行了相同的繪製:EleutherAI/gpt-neo-125M和facebook/opt-125m,結果我得到了相同的結果(我想?)。
在原始的transformers論文中,作者使用了一個固定的正弦函數來進行位置嵌入。為什麼模型會在自然語言中學習到正弦結構?
這是因為英語有正弦結構嗎?主語通常在動詞之前,子句有時間或因果順序等等?




92.68K
熱門
排行
收藏