DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Jadi inilah pertanyaannya: Saya berpikir tentang struktur bahasa Inggris dan bagaimana hal itu dapat mempengaruhi pembelajaran penyematan posisi. saya kembali ke video GPT2 @karpathy dan dia memplot matriks WPE untuk GPT2 di mana plotnya pada dasarnya adalah nilai dari 3 saluran tertentu (dari 768 dimensi) sebagai fungsi dari posisi (1024, ukuran konteks). Dia mengatakan bahwa pos_embeddings terpelajar memiliki struktur di dalamnya. Saya penasaran dan merencanakan hal yang sama untuk 2 model open-source lagi: EleutherAI/gpt-neo-125M, dan facebook/opt-125m, dan saya mendapatkan hasil yang sama (saya kira?). Dalam makalah Transformers asli, penulis menggunakan fungsi sinusoidal tetap untuk penyematan posisi. Mengapa model mempelajari struktur sinusoidal dalam bahasa alami? Apakah karena bahasa Inggris memiliki struktur sinusoidal? subjek biasanya mendahului kata kerja, klausa memiliki urutan temporal atau kausal, dll.?

93,01K

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal