呃..Qwen3.5-35B-A3B 在 llama.cpp 上每次请求都重新填充,速度比应该慢 ~4 倍。有人解决这个问题吗?我以为大家都愉快地在本地部署和使用它?但如果这个问题还没有解决,性能就相当有限。 根本原因:GDN 层是递归的 → pos_min 跟踪完整序列 → 但 llama.cpp 使用 SWA 阈值验证缓存,对于非 SWA 模型默认值为 1 → pos_min > 1 始终为真 → 缓存总是被丢弃 → 每次都要完全重新填充?
实际上,docker 镜像(2026-03-13 构建)包含修复。无需手动打补丁。
439