Neue Forschung: FlashAttention-4 FlashAttention-4 erreicht eine bis zu 1,3-fache Beschleunigung gegenüber cuDNN 9.13 und 2,7-fache gegenüber Triton auf B200 GPUs mit BF16. FlashAttention-4 entwirft Algorithmen und Kernel-Pipelines für Blackwell GPUs, bei denen der Durchsatz der Tensor-Kerne sich verdoppelt, aber die Speicherbandbreite und exponentiellen Einheiten langsamer skalieren. Die Techniken umfassen vollständig asynchrone MMA-Operationen, software-emulierte exponentielle Neuskalierung und die Nutzung von Tensor-Speicher zur Reduzierung des Shared Memory-Verkehrs. FlashAttention-4 erreicht eine bis zu 1,3-fache Beschleunigung gegenüber cuDNN und 2,7-fache gegenüber Triton auf B200 GPUs und erreicht 1613 TFLOPs/s bei 71% Auslastung. Vollständig in Python über CuTe-DSL implementiert mit 20-30x schnelleren Kompilierzeiten im Vergleich zu C++-Templates. Papier: Lerne, effektive AI-Agenten in unserer Akademie zu bauen: