Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dì ciao a Exclusive Self Attention (XSA), un miglioramento (quasi) gratuito ai Transformers per LM.
Osservazione: per y = attn(q, k, v), yᵢ e vᵢ tendono ad avere una somiglianza coseno molto alta.
Correzione: escludere vᵢ da yᵢ tramite zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖²
Risultato: migliore perdita di addestramento/valutazione su diverse dimensioni del modello; guadagni crescenti man mano che la lunghezza della sequenza aumenta.
Vedi di più:

Principali
Ranking
Preferiti
