Dì ciao a Exclusive Self Attention (XSA), un miglioramento (quasi) gratuito ai Transformers per LM. Osservazione: per y = attn(q, k, v), yᵢ e vᵢ tendono ad avere una somiglianza coseno molto alta. Correzione: escludere vᵢ da yᵢ tramite zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖² Risultato: migliore perdita di addestramento/valutazione su diverse dimensioni del modello; guadagni crescenti man mano che la lunghezza della sequenza aumenta. Vedi di più: