LM için Transformers'a (neredeyse) ücretsiz bir geliştirme olan Exclusive Self Attention (XSA) ile selam deyin. Gözlem: y = attn(q, k, v) için, yi ve vi çok yüksek kosinüs benzerliğe sahiptir Düzeltme: vi ile yi ile zi = yi - (yiTvi)vi/‖vi‖² Sonuç: model boyutları arasında daha iyi eğitim/değer kaybı; Dizi uzunluğu arttıkça kazançlar artır. Daha fazlasını gör: