一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

所以我有一个问题：我在思考英语的结构，以及它可能如何影响位置嵌入的学习。我回去看了@karpathy的GPT2视频，他绘制了GPT2的wpe矩阵，其中图表基本上是3个特定通道（在768个维度中）的值与位置（1024，上下文大小）的关系。他说学习到的位置嵌入中有一种结构。我很好奇，于是对另外两个开源模型进行了相同的绘制：EleutherAI/gpt-neo-125M和facebook/opt-125m，结果是一样的（我想？）。在原始的transformers论文中，作者使用了固定的正弦函数作为位置嵌入。为什么模型会在自然语言中学习到正弦结构？这是否因为英语具有正弦结构？主语通常在动词之前，从句有时间或因果顺序，等等？

92.68K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可