Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Neue Forschung: FlashAttention-4
FlashAttention-4 erreicht eine bis zu 1,3-fache Beschleunigung gegenüber cuDNN 9.13 und 2,7-fache gegenüber Triton auf B200 GPUs mit BF16.
FlashAttention-4 entwirft Algorithmen und Kernel-Pipelines für Blackwell GPUs, bei denen der Durchsatz der Tensor-Kerne sich verdoppelt, aber die Speicherbandbreite und exponentiellen Einheiten langsamer skalieren.
Die Techniken umfassen vollständig asynchrone MMA-Operationen, software-emulierte exponentielle Neuskalierung und die Nutzung von Tensor-Speicher zur Reduzierung des Shared Memory-Verkehrs.
FlashAttention-4 erreicht eine bis zu 1,3-fache Beschleunigung gegenüber cuDNN und 2,7-fache gegenüber Triton auf B200 GPUs und erreicht 1613 TFLOPs/s bei 71% Auslastung.
Vollständig in Python über CuTe-DSL implementiert mit 20-30x schnelleren Kompilierzeiten im Vergleich zu C++-Templates.
Papier:
Lerne, effektive AI-Agenten in unserer Akademie zu bauen:

Top
Ranking
Favoriten
