uh..Qwen3.5-35B-A3B auf llama.cpp bei jeder Anfrage neu auffüllen, ~4x langsamer als es sein sollte. Hat das jemand gelöst? Ich dachte, die Leute hätten es glücklich lokal bereitgestellt und verwendet? Aber wenn das noch nicht gelöst ist, ist die Leistung ziemlich eingeschränkt. Ursache: GDN-Schichten sind rekurrent → pos_min verfolgt die gesamte Sequenz → aber llama.cpp validiert den Cache mit einem SWA-Schwellenwert, der für Nicht-SWA-Modelle standardmäßig auf 1 gesetzt ist → pos_min > 1 immer wahr → Cache wird immer verworfen → vollständiges Neuausfüllen jedes Mal?
Tatsächlich enthält das Docker-Image (Builds vom 13.03.2026) Fixes. Kein manuelles Patchen erforderlich.
429