DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Yeni araştırma: FlashAttention-4 FlashAttention-4, BF16 ile B200 GPU'larda cuDNN 9.13 üzerinden 1.3 kata ve Triton'a göre 2.7 katına kadar hızlanma sağlıyor. FlashAttention-4, Blackwell GPU'ları için tensor çekirdeği verimliliğinin iki katına çıktığı ancak bellek bant genişliği ve üstel birimlerin daha yavaş ölçeklendiği algoritmalar ve çekirdek boru hatlarını birlikte tasarlar. Teknikler arasında tamamen asenkron MMA işlemleri, yazılım emülasyonu yapılan üstel yeniden ölçeklendirme ve paylaşılan bellek trafiğini azaltmak için tensör belleği kullanmak yer alır. FlashAttention-4, B200 GPU'larda cuDNN üzerinden 1.3 kat, Triton üzerinde ise 2.7 kat hız elde ederek %71 kullanımda 1613 TFLOP/s'ye ulaşıyor. Tamamen Python ile CuTe-DSL üzerinden uygulanmış ve C++ şablonlarına kıyasla 20-30 kat daha hızlı derleme süreleri sunuyor. Makale: Akademimizde etkili yapay zeka ajanları oluşturmayı öğrenin:

En İyiler

Sıralama

Takip Listesi