Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nieuw onderzoek: FlashAttention-4
FlashAttention-4 bereikt tot 1,3x versnelling ten opzichte van cuDNN 9.13 en 2,7x ten opzichte van Triton op B200 GPU's met BF16.
FlashAttention-4 ontwerpt algoritmen en kernel-pijplijnen voor Blackwell GPU's, waar de doorvoer van tensor cores verdubbelt, maar de geheugensnelheid en exponentiële eenheden langzamer schalen.
De technieken omvatten volledig asynchrone MMA-operaties, software-geëmmuleerde exponentiële herschaling en het benutten van tensor-geheugen om het verkeer van gedeeld geheugen te verminderen.
FlashAttention-4 bereikt tot 1,3x versnelling ten opzichte van cuDNN en 2,7x ten opzichte van Triton op B200 GPU's, met een snelheid van 1613 TFLOPs/s bij 71% benutting.
Volledig geïmplementeerd in Python via CuTe-DSL met 20-30x snellere compileertijden in vergelijking met C++-sjablonen.
Paper:
Leer effectieve AI-agenten te bouwen in onze academie:

Boven
Positie
Favorieten
