1/ Tette MLP-er er en løgn. Standardtransformatorene vi trener gjør allerede sparsom ruting inne i sine feedforward-lag—vi kunne bare ikke se det før nå. 🧵