Nieuw onderzoek: FlashAttention-4 FlashAttention-4 bereikt tot 1,3x versnelling ten opzichte van cuDNN 9.13 en 2,7x ten opzichte van Triton op B200 GPU's met BF16. FlashAttention-4 ontwerpt algoritmen en kernel-pijplijnen voor Blackwell GPU's, waar de doorvoer van tensor cores verdubbelt, maar de geheugensnelheid en exponentiële eenheden langzamer schalen. De technieken omvatten volledig asynchrone MMA-operaties, software-geëmmuleerde exponentiële herschaling en het benutten van tensor-geheugen om het verkeer van gedeeld geheugen te verminderen. FlashAttention-4 bereikt tot 1,3x versnelling ten opzichte van cuDNN en 2,7x ten opzichte van Triton op B200 GPU's, met een snelheid van 1613 TFLOPs/s bij 71% benutting. Volledig geïmplementeerd in Python via CuTe-DSL met 20-30x snellere compileertijden in vergelijking met C++-sjablonen. Paper: Leer effectieve AI-agenten te bouwen in onze academie: