Deci, iată o întrebare: Mă gândeam la structura limbii engleze și la modul în care ar putea afecta învățarea încorporarilor poziționale. M-am întors la videoclipul GPT2 al lui @karpathy și a trasat matricea wpe pentru GPT2 unde graficul este practic valorile a 3 canale specifice (din cele 768 de dimensiuni) în funcție de poziție (1024, dimensiunea contextului). El a spus că învățații pos_embeddings au o structură în ei. Am devenit curios și am trasat același lucru pentru încă 2 modele open-source: EleutherAI/gpt-neo-125M și facebook/opt-125m și am obținut același rezultat (cred?). În lucrarea originală Transformers, autorii au folosit o funcție sinusoidală fixă pentru încorporarea pozițională. De ce modelele învață structura sinusoidală în limbaj natural? Oare pentru că engleza are o structură sinusoidală? Subiecții preced de obicei verbele, propozițiile au ordine temporală sau cauzală etc.?
92,69K