Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новое исследование: FlashAttention-4
FlashAttention-4 достигает ускорения до 1.3x по сравнению с cuDNN 9.13 и 2.7x по сравнению с Triton на GPU B200 с BF16.
FlashAttention-4 совместно разрабатывает алгоритмы и конвейеры ядра для GPU Blackwell, где пропускная способность тензорных ядер удваивается, но пропускная способность памяти и экспоненциальные единицы масштабируются медленнее.
Техники включают полностью асинхронные операции MMA, программно эмулируемую экспоненциальную пересчетку и использование тензорной памяти для снижения трафика общей памяти.
FlashAttention-4 достигает ускорения до 1.3x по сравнению с cuDNN и 2.7x по сравнению с Triton на GPU B200, достигая 1613 TFLOPs/с при 71% загрузке.
Полностью реализовано на Python через CuTe-DSL с временем компиляции в 20-30 раз быстрее по сравнению с шаблонами C++.
Статья:
Научитесь создавать эффективные AI-агенты в нашей академии:

Топ
Рейтинг
Избранное
