uh..Qwen3.5-35B-A3B su llama.cpp ricarica predefinita ad ogni richiesta, ~4 volte più lento di quanto dovrebbe essere. Qualcuno ha risolto questo problema? Pensavo che le persone lo avessero felicemente implementato e utilizzato localmente? Ma se questo non è ancora risolto, le prestazioni sono piuttosto limitate. Causa principale: i livelli GDN sono ricorrenti → pos_min tiene traccia dell'intera sequenza → ma llama.cpp convalida la cache utilizzando una soglia SWA che per impostazione predefinita è 1 per i modelli non-SWA → pos_min > 1 sempre vero → cache sempre scartata → ricarica completa ogni volta?
In realtà, l'immagine docker (build del 13 marzo 2026) include delle correzioni. Non è necessaria alcuna patch manuale.
440