Vad händer om du Q,K,V = mlp(x).split(3) istället för linjär(x).split(3)? Någon som provat detta?
87,48K