Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Yeni araştırma: FlashAttention-4
FlashAttention-4, BF16 ile B200 GPU'larda cuDNN 9.13 üzerinden 1.3 kata ve Triton'a göre 2.7 katına kadar hızlanma sağlıyor.
FlashAttention-4, Blackwell GPU'ları için tensor çekirdeği verimliliğinin iki katına çıktığı ancak bellek bant genişliği ve üstel birimlerin daha yavaş ölçeklendiği algoritmalar ve çekirdek boru hatlarını birlikte tasarlar.
Teknikler arasında tamamen asenkron MMA işlemleri, yazılım emülasyonu yapılan üstel yeniden ölçeklendirme ve paylaşılan bellek trafiğini azaltmak için tensör belleği kullanmak yer alır.
FlashAttention-4, B200 GPU'larda cuDNN üzerinden 1.3 kat, Triton üzerinde ise 2.7 kat hız elde ederek %71 kullanımda 1613 TFLOP/s'ye ulaşıyor.
Tamamen Python ile CuTe-DSL üzerinden uygulanmış ve C++ şablonlarına kıyasla 20-30 kat daha hızlı derleme süreleri sunuyor.
Makale:
Akademimizde etkili yapay zeka ajanları oluşturmayı öğrenin:

En İyiler
Sıralama
Takip Listesi
