Eh.. Qwen3.5-35B-A3B na llama.cpp doplňujte při každé žádosti, ~4x pomaleji, než by mělo být. Někdo to vyřešil? Mysleli jste si, že lidé ho rádi nasadili a používali lokálně? Pokud to ale ještě není vyřešeno, výkon je poměrně omezený. Hlavní příčina: GDN vrstvy jsou opakující se → pos_min sledují celou sekvenci →, ale llama.cpp ověřuje cache pomocí SWA prahu, který je výchozí 1 pro ne-SWA modely → pos_min > 1 vždy platí → cache vždy vyhazuje → kompletní doplnění pokaždé?
Ve skutečnosti docker image (buildy 2026-03-13) obsahuje opravy. Není potřeba žádné ruční opravy.
441