Co se stane, když Q,K,V = mlp(x).split(3) místo linear(x).split(3) ? Zkoušel to někdo?
87,47K