一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

呃..Qwen3.5-35B-A3B 在 llama.cpp 上每次请求都重新填充，速度比应该慢 ~4 倍。有人解决这个问题吗？我以为大家都愉快地在本地部署和使用它？但如果这个问题还没有解决，性能就相当有限。根本原因：GDN 层是递归的 → pos_min 跟踪完整序列 → 但 llama.cpp 使用 SWA 阈值验证缓存，对于非 SWA 模型默认值为 1 → pos_min > 1 始终为真 → 缓存总是被丢弃 → 每次都要完全重新填充？

实际上，docker 镜像（2026-03-13 构建）包含修复。无需手动打补丁。

439