1/ Wir haben eine Hardware-Skalierungskrise. GPU-Tensor-Kerne verdoppeln sich in der Geschwindigkeit, aber die Speicherbandbreite und die exponentiellen Recheneinheiten stagnieren. Ihre Aufmerksamkeitskerne warten untätig, während sie darauf warten, dass die grundlegenden Berechnungen abgeschlossen sind. 🧵