uh..Qwen3.5-35B-A3B na llama.cpp ponownie napełnia przy każdym żądaniu, ~4x wolniej niż powinno być. Czy ktoś to rozwiązał? Myślałem, że ludzie z radością wdrożyli i używali tego lokalnie? Ale jeśli to jeszcze nie zostało rozwiązane, wydajność jest dość ograniczona. Przyczyna: warstwy GDN są rekurencyjne → pos_min śledzi pełną sekwencję → ale llama.cpp waliduje pamięć podręczną używając progu SWA, który domyślnie wynosi 1 dla modeli non-SWA → pos_min > 1 zawsze prawda → pamięć podręczna zawsze odrzucana → pełne ponowne napełnienie za każdym razem?
Właściwie obraz dockera (kompilacje z 2026-03-13) zawiera poprawki. Nie jest potrzebne ręczne łatanie.
431