więc mam pytanie: myślałem o strukturze języka angielskiego i o tym, jak może to wpływać na naukę osadzeń pozycyjnych. wróciłem do wideo @karpathy'ego o GPT2, gdzie wykreślił macierz wpe dla GPT2, w której wykres to w zasadzie wartości 3 konkretnych kanałów (z 768 wymiarów) w funkcji pozycji (1024, rozmiar kontekstu). powiedział, że wyuczone osadzenia pozycyjne mają w sobie strukturę. Zaintrygowałem się i wykreśliłem to samo dla 2 innych modeli open-source: EleutherAI/gpt-neo-125M oraz facebook/opt-125m, i uzyskałem ten sam wynik (chyba?). w oryginalnym artykule o transformatorach autorzy użyli stałej funkcji sinusoidalnej dla osadzeń pozycyjnych. dlaczego modele uczą się sinusoidalnej struktury w języku naturalnym? czy to dlatego, że angielski ma sinusoidalną strukturę? podmioty zazwyczaj poprzedzają czasowniki, zdania mają porządek czasowy lub przyczynowy, itd?
93,01K