一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

所以這裡有個問題：我在思考英語的結構，以及它可能如何影響位置嵌入的學習。我回去看了@karpathy的GPT2視頻，他繪製了GPT2的wpe矩陣，這個圖基本上是3個特定通道（在768維度中）隨著位置（1024，上下文大小）的變化而變化的值。他說學習到的位置嵌入中有一種結構。我很好奇，於是對另外兩個開源模型進行了相同的繪製：EleutherAI/gpt-neo-125M和facebook/opt-125m，結果我得到了相同的結果（我想？）。在原始的transformers論文中，作者使用了一個固定的正弦函數來進行位置嵌入。為什麼模型會在自然語言中學習到正弦結構？這是因為英語有正弦結構嗎？主語通常在動詞之前，子句有時間或因果順序等等？

92.68K

熱門

排行

收藏

鏈上熱點

X 熱門榜

近期融資

最受認可