所以我有一个问题: 我在思考英语的结构,以及它可能如何影响位置嵌入的学习。 我回去看了@karpathy的GPT2视频,他绘制了GPT2的wpe矩阵,其中图表基本上是3个特定通道(在768个维度中)的值与位置(1024,上下文大小)的关系。 他说学习到的位置嵌入中有一种结构。我很好奇,于是对另外两个开源模型进行了相同的绘制:EleutherAI/gpt-neo-125M和facebook/opt-125m,结果是一样的(我想?)。 在原始的transformers论文中,作者使用了固定的正弦函数作为位置嵌入。为什么模型会在自然语言中学习到正弦结构? 这是否因为英语具有正弦结构?主语通常在动词之前,从句有时间或因果顺序,等等?
92.68K