Uh.. Qwen3.5-35B-A3B llama.cpp her isteğe yeniden ön doldurma yapıyor, olması gerekenden ~4 kat daha yavaş. Bunu çözen var mı? İnsanların bunu seve ve yerel olarak kullandığını mı sanıyordun? Ama henüz çözülmediyse, performans oldukça sınırlı. Temel neden: GDN katmanları tekrarlanır → pos_min tam diziyi → takip eder ama llama.cpp, SWA dışı modeller için varsayılan olarak 1 olan bir SWA eşiği kullanarak önbelleği doğrular→ pos_min > 1 her zaman doğrudur → her zaman çöp → yeniden doldurma yapılır?
Aslında docker görüntüsü (2026-03-13 sürümleri) düzeltmeler içeriyor. Manuel yamaya gerek yok.
431