Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Vậy đây là một câu hỏi: Tôi đã suy nghĩ về cấu trúc của tiếng Anh và cách nó có thể ảnh hưởng đến việc học các nhúng vị trí. Tôi đã quay lại video GPT2 của @karpathy và anh ấy đã vẽ ma trận wpe cho GPT2, nơi biểu đồ chủ yếu là các giá trị của 3 kênh cụ thể (trong số 768 chiều) theo hàm của vị trí (1024, kích thước ngữ cảnh). Anh ấy nói rằng các nhúng vị trí đã học có một cấu trúc trong đó. Tôi đã cảm thấy tò mò và vẽ cùng một điều cho 2 mô hình mã nguồn mở khác: EleutherAI/gpt-neo-125M và facebook/opt-125m, và tôi đã nhận được kết quả tương tự (tôi đoán vậy?). Trong bài báo gốc về transformers, các tác giả đã sử dụng một hàm sin cố định cho các nhúng vị trí. Tại sao các mô hình lại học cấu trúc sin trong ngôn ngữ tự nhiên? Có phải vì tiếng Anh có một cấu trúc sin không? Các chủ ngữ thường đứng trước động từ, các mệnh đề có thứ tự tạm thời hoặc nguyên nhân, v.v.?

92,68K

Hàng đầu

Thứ hạng

Yêu thích

Onchain thịnh hành

Thịnh hành trên X

Ví funding hàng đầu gần đây

Được chú ý nhất