Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
uh..Qwen3.5-35B-A3B su llama.cpp ricarica predefinita ad ogni richiesta, ~4 volte più lento di quanto dovrebbe essere. Qualcuno ha risolto questo problema? Pensavo che le persone lo avessero felicemente implementato e utilizzato localmente? Ma se questo non è ancora risolto, le prestazioni sono piuttosto limitate.
Causa principale: i livelli GDN sono ricorrenti → pos_min tiene traccia dell'intera sequenza → ma llama.cpp convalida la cache utilizzando una soglia SWA che per impostazione predefinita è 1 per i modelli non-SWA → pos_min > 1 sempre vero → cache sempre scartata → ricarica completa ogni volta?

In realtà, l'immagine docker (build del 13 marzo 2026) include delle correzioni. Non è necessaria alcuna patch manuale.

440
Principali
Ranking
Preferiti
