quindi ecco una domanda: stavo pensando alla struttura dell'inglese e a come potrebbe influenzare l'apprendimento delle embedding posizionali. sono tornato al video di @karpathy su GPT2 e ha tracciato la matrice wpe per GPT2 dove il grafico è fondamentalmente i valori di 3 canali specifici (su 768 dimensioni) in funzione della posizione (1024, dimensione del contesto). ha detto che le pos_embeddings apprese hanno una struttura in esse. sono diventato curioso e ho tracciato lo stesso per altri 2 modelli open-source: EleutherAI/gpt-neo-125M e facebook/opt-125m, e ho ottenuto lo stesso risultato (credo?). nel documento originale sui transformers, gli autori hanno utilizzato una funzione sinusoidale fissa per le embedding posizionali. perché i modelli apprendono una struttura sinusoidale nel linguaggio naturale? è perché l'inglese ha una struttura sinusoidale? i soggetti di solito precedono i verbi, le clausole hanno un ordine temporale o causale, ecc.?
92,68K