Новое исследование: FlashAttention-4 FlashAttention-4 достигает ускорения до 1.3x по сравнению с cuDNN 9.13 и 2.7x по сравнению с Triton на GPU B200 с BF16. FlashAttention-4 совместно разрабатывает алгоритмы и конвейеры ядра для GPU Blackwell, где пропускная способность тензорных ядер удваивается, но пропускная способность памяти и экспоненциальные единицы масштабируются медленнее. Техники включают полностью асинхронные операции MMA, программно эмулируемую экспоненциальную пересчетку и использование тензорной памяти для снижения трафика общей памяти. FlashAttention-4 достигает ускорения до 1.3x по сравнению с cuDNN и 2.7x по сравнению с Triton на GPU B200, достигая 1613 TFLOPs/с при 71% загрузке. Полностью реализовано на Python через CuTe-DSL с временем компиляции в 20-30 раз быстрее по сравнению с шаблонами C++. Статья: Научитесь создавать эффективные AI-агенты в нашей академии: