Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nueva investigación: FlashAttention-4
FlashAttention-4 logra hasta 1.3x de aceleración sobre cuDNN 9.13 y 2.7x sobre Triton en GPUs B200 con BF16.
FlashAttention-4 co-diseña algoritmos y tuberías de núcleo para GPUs Blackwell, donde el rendimiento de los núcleos tensoriales se duplica, pero el ancho de banda de memoria y las unidades exponenciales escalan más lentamente.
Las técnicas incluyen operaciones MMA completamente asíncronas, reescalado exponencial emulado por software y aprovechamiento de la memoria tensorial para reducir el tráfico de memoria compartida.
FlashAttention-4 logra hasta 1.3x de aceleración sobre cuDNN y 2.7x sobre Triton en GPUs B200, alcanzando 1613 TFLOPs/s con un 71% de utilización.
Implementado completamente en Python a través de CuTe-DSL con tiempos de compilación de 20-30x más rápidos en comparación con plantillas de C++.
Documento:
Aprende a construir agentes de IA efectivos en nuestra academia:

Parte superior
Clasificación
Favoritos
