Wat gebeurt er als je Q,K,V = mlp(x).split(3) doet in plaats van linear(x).split(3)? Heeft iemand dit geprobeerd?
87,43K