Итак, вот вопрос: Я думал о структуре английского языка и о том, как она может повлиять на изучение позиционных встраиваний. Я вернулся к видео @karpathy о GPT2, где он построил матрицу wpe для GPT2, где график в основном показывает значения 3 конкретных каналов (из 768 измерений) в зависимости от позиции (1024, размер контекста). Он сказал, что изученные pos_embeddings имеют в себе структуру. Мне стало любопытно, и я построил то же самое для 2 других открытых моделей: EleutherAI/gpt-neo-125M и facebook/opt-125m, и я получил тот же результат (наверное?). В оригинальной статье о трансформерах авторы использовали фиксированную синусоидальную функцию для позиционных встраиваний. Почему модели учат синусоидальную структуру в естественном языке? Это потому, что английский язык имеет синусоидальную структуру? Субъекты обычно предшествуют глаголам, предложения имеют временной или причинный порядок и т.д.?
92,69K