Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
uh..Qwen3.5-35B-A3B na llama.cpp ponownie napełnia przy każdym żądaniu, ~4x wolniej niż powinno być. Czy ktoś to rozwiązał? Myślałem, że ludzie z radością wdrożyli i używali tego lokalnie? Ale jeśli to jeszcze nie zostało rozwiązane, wydajność jest dość ograniczona.
Przyczyna: warstwy GDN są rekurencyjne → pos_min śledzi pełną sekwencję → ale llama.cpp waliduje pamięć podręczną używając progu SWA, który domyślnie wynosi 1 dla modeli non-SWA → pos_min > 1 zawsze prawda → pamięć podręczna zawsze odrzucana → pełne ponowne napełnienie za każdym razem?

Właściwie obraz dockera (kompilacje z 2026-03-13) zawiera poprawki. Nie jest potrzebne ręczne łatanie.

431
Najlepsze
Ranking
Ulubione
