DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Alors voici une question : Je pensais à la structure de l'anglais et à la façon dont cela pourrait affecter l'apprentissage des embeddings positionnels. Je suis retourné à la vidéo GPT2 de @karpathy et il a tracé la matrice wpe pour GPT2 où le graphique représente essentiellement les valeurs de 3 canaux spécifiques (sur les 768 dimensions) en fonction de la position (1024, taille du contexte). Il a dit que les pos_embeddings appris ont une structure en eux. Je suis devenu curieux et j'ai tracé la même chose pour 2 autres modèles open-source : EleutherAI/gpt-neo-125M et facebook/opt-125m, et j'ai obtenu le même résultat (je suppose ?). Dans l'article original sur les transformers, les auteurs ont utilisé une fonction sinusoïdale fixe pour les embeddings positionnels. Pourquoi est-il vrai que les modèles apprennent une structure sinusoïdale dans le langage naturel ? Est-ce parce que l'anglais a une structure sinusoïdale ? Les sujets précèdent généralement les verbes, les clauses ont un ordre temporel ou causal, etc. ?

93,01K

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables