Was passiert, wenn du Q,K,V = mlp(x).split(3) anstelle von linear(x).split(3) machst? Hat das schon mal jemand ausprobiert?
87,48K