Penelitian baru: FlashAttention-4 FlashAttention-4 mencapai kecepatan hingga 1,3x melalui cuDNN 9.13 dan 2,7x melalui Triton pada GPU B200 dengan BF16. FlashAttention-4 ikut merancang algoritme dan alur kernel untuk GPU Blackwell, di mana throughput inti tensor berlipat ganda tetapi bandwidth memori dan unit eksponensial menskalakan lebih lambat. Tekniknya mencakup operasi MMA yang sepenuhnya asinkron, penskalaan ulang eksponensial yang ditiru perangkat lunak, dan memanfaatkan memori tensor untuk mengurangi lalu lintas memori bersama. FlashAttention-4 mencapai kecepatan hingga 1,3x melalui cuDNN dan 2,7x melalui Triton pada GPU B200, mencapai 1613 TFLOP/s pada pemanfaatan 71%. Diimplementasikan sepenuhnya dalam Python melalui CuTe-DSL dengan waktu kompilasi 20-30x lebih cepat dibandingkan dengan template C++. Kertas: Pelajari cara membangun agen AI yang efektif di akademi kami: