Cosa succede se fai Q,K,V = mlp(x).split(3) invece di linear(x).split(3)? Qualcuno ha provato?
87,47K