Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nova pesquisa: FlashAttention-4
FlashAttention-4 alcança até 1,3x de aceleração em relação ao cuDNN 9.13 e 2,7x em relação ao Triton em GPUs B200 com BF16.
FlashAttention-4 co-projeta algoritmos e pipelines de kernel para GPUs Blackwell, onde a taxa de transferência do núcleo tensor dobra, mas a largura de banda de memória e as unidades exponenciais escalam mais lentamente.
As técnicas incluem operações MMA totalmente assíncronas, reescalonamento exponencial emulado por software e aproveitamento da memória tensor para reduzir o tráfego de memória compartilhada.
FlashAttention-4 alcança até 1,3x de aceleração em relação ao cuDNN e 2,7x em relação ao Triton em GPUs B200, atingindo 1613 TFLOPs/s com 71% de utilização.
Implementado inteiramente em Python via CuTe-DSL com tempos de compilação 20-30x mais rápidos em comparação com templates C++.
Artigo:
Aprenda a construir agentes de IA eficazes em nossa academia:

Top
Classificação
Favoritos
